-
摘要: 无监督跨域的行人重识别旨在将从有标签的源域中学习到的知识迁移到无标签的目标域, 具有实用性和有效性而得到广泛关注. 基于聚类的跨域行人重识别可以生成伪标签并对模型进行优化使得其表现较其他方法更优, 然而这类方法由于过于依赖聚类伪标签的准确性, 忽略了对伪标签噪声的处理, 导致噪声随着网络迭代而不断扩大, 影响模型的鲁棒性. 针对这个问题, 提出了基于自适应融合网络的方法, 利用双网络结构共同学习, 并将学习到的知识进行融合得到融合网络; 为了区分两个网络的学习能力, 设计了自适应融合策略; 同时, 利用细粒度风格转换模块对目标域数据集进行处理, 降低行人图像对相机变换的敏感度. 在行人重识别基准数据集Market1501、DukeMTMC-ReID和MSMT17上, 通过评估指标平均精度均值和Rank-n与主流的方法进行了对比实验, 验证了该方法的有效性.Abstract: Unsupervised cross-domain person re-identification aims to transfer the knowledge learned from labeled source domain to unlabeled target domain, which has attracted wide attention due to its practicability and effectiveness. Cross-domain person re-identification based on clustering can generate pseudo-labels and optimize the model to make its performance better than other methods. However, these methods rely too much on the accuracy of clustering pseudo labels and ignore to deal with pseudo-label noise, which leads to the continuous expansion of noise with network iteration and affects the robustness of the models. To address this problem, this paper proposes a method based on fine-grained style transfer and adaptive fusion network, which uses dual network structure to learn together and fuse the learned knowledge to obtain a fusion network. To treat the learning ability of the two networks differently, an adaptive fusion strategy is designed based on the different weights of the two networks in each fusion process. At the same time, a fine-grained style transfer module is used to process the target domain dataset, thereby reducing the sensitivity of person images to camera transformation. On the person re-identification benchmark datasets Market1501, DukeMTMC-ReID and MSMT17, the effectiveness of the proposed method was verified by comparing mean average precision and Rank-n with the state-of-the-art methods.
-
行人重识别[1-3]利用计算机视觉技术判断不同摄像头的图像或者视频序列中是否存在特定行人, 广泛应用于智能安防、无人超市、人机交互等多个领域. 随着深度学习的应用普及, 行人重识别获得了发展条件, 其在有监督领域上的准确率得到了大幅度的提升[4]. 但是有监督的行人重识别因需要带有真实标签的数据集而脱离实际应用, 无监督的行人重识别弥补了有监督学习的需要真实标签的劣势. 目前无监督的行人重识别所能达到的精度远远不能满足现实生活应用需求, 跨域的行人重识别由于其只需要一个预训练源域数据集带有真实标签而被识别的目标域数据集无需标签, 成为未来研究发展的方向[5].
由于不同场景存在着摄像头参数、背景和光照等问题, 简单地将在源域上进行训练所得到的模型应用于目标域上进行测试会导致行人重识别性能的下降[6-7]. 同时, 传统的跨域问题常常是基于闭集场景下的, 即假设源域和目标域共享完全相同的类, 但是这种假设并不适用于行人重识别问题. 跨域的行人重识别数据集通常是在不同时空下获得的, 所以源域与目标域的图像通常具有不同的身份信息, 应该将其看作是开集问题, 这比闭集问题更具有挑战性.
本文研究跨域方法, 着重解决现有基于聚类的跨域行人重识别方法中忽略对伪标签噪声处理的问题, 提出了基于自适应融合网络的行人重识别模型, 主要创新和贡献如下:
1)本文提出的融合网络模型, 采用双网络结构共同学习并进行网络融合, 利用融合后的网络反过来监督双网络结构的训练, 这种知识共享的模型结构可以有效地防止聚类伪标签噪声的扩大.
2)本文提出了自适应融合策略, 使得模型在每一次融合过程中, 可以针对两个网络的学习情况分配不同权重自适应地对两个网络知识进行融合.
3)本文设计了细粒度风格转换模块来降低不同相机间视角下的风格差异性, 提高模型对时空变化的鲁棒性.
本文的安排如下: 第1节介绍跨域行人重识别主要分类及相关工作; 第2节介绍本文提出的基于自适应融合网络的跨域行人重识别方法; 第3节给出实验设置并对实验结果进行分析; 第4节总结本文工作并对未来工作进行展望.
1. 相关工作
无监督跨域的行人重识别研究是在无监督的行人重识别研究上发展而来. 相较于无监督的方法, 无监督跨域的方法额外利用一个具有标签的源域数据集, 因此会有一定的先验知识作为指导, 识别效果也会更优. 最近的无监督行人重识别通过挖掘特征间的内在联系解决图像由于时空变换引起的特征分布的差异性, 从而提高了识别精度, 其中具有代表性的是文献[8-10], 分别利用相机感知代理处理相机变化的问题、元信息构建超图挖掘潜在的价值信息、成对相似性处理不同实例在增强视图间的匹配, 对未来跨域无监督的行人重识别发展具有一定的参考意义.
目前跨域行人重识别方法主要可以分为四类:
1)域分布对齐的跨域行人重识别[11-12], 通过对齐源域与目标域的数据分布来减小域间隙. 域分布对齐意在将目标域的数据分布尽可能地与源域数据分布一致, 这样可以减少域间隙, 从而提高实验的准确率. Wang等[11]利用额外标注的行人属性信息, 通过身份标签分支和属性分支结合训练, 实现网络间信息的交融, 最终学习到行人更本质的特征. Djebril等[12]认为解决跨域问题应该将重点放在对齐域之间的成对差异而不是特征表示, 为此提出一个基于非相似最大平均差异(Dissimilarity-based maximum mean discrepancy, D-MMD)损失来最小化成对差异. 域分布对齐应用在跨域的行人重识别方向往往需要考虑更多的因素而导致模型较为复杂.
2)域不变性的跨域行人重识别[13-16], 该方法利用生成对抗网络(Generative adversarial networks, GAN)来处理数据图像以获得相似的数据集间图像风格. Liu等[13]将跨域转换分解为光照、相机角度、分辨率三个因子转换, 每个因子作为一个子风格, 为每个子风格训练一个生成器并提出一种可以权衡各种因子影响程度从而进行融合的网络Adaptive transfer network (ATNet), 该网络通过最小化中间层的子任务达到细粒度级别的风格迁移. 文献[14]提出的相似性保持生成对抗网络(Similarity preserving GAN, SPGAN)和Wei等[15]提出的行人迁移生成对抗网络(Person transfer GAN, PTGA-N)都是利用生成对抗网络将源域的图像风格转换为目标域的图像风格, 同时保留源域图像的标签信息, 使得源域和目标域间的知识转移更具有鲁棒性. Zhong等[16]通过挖掘相机配置之间的关系, 基于生成对抗网络通过生成域内不同相机之间的图像来解决域内相机间隙问题. 但是这些方法过度依赖于生成图像的质量, 导致准确性普遍低于有监督的行人重识别.
3)计算特征相似性产生的软标签来优化网络[17-19], 通常是利用保存所有图像的平均特征或是利用辅助数据集构建的特征空间来表示软标签. 计算特征相似性是利用已经训练过的图像或是辅助数据集图像等构建特征空间来表示将要训练的图像. Zhong等[17]提出的范例相机邻域不变性(Exemplar camera neighborhood invariance, ECN)利用存储器结构来保存平均特征进而为训练图像来分配软标签, 利用样本不变性、相机不变性、邻域不变性这三个不变性监督优化网络. Yu等[18]提出的深度软多标签参考学习(Deep soft multi-label reference learning, MAR)利用MSMT17数据集[15]作为辅助数据集构建特征空间, 并在特征空间中表示目标域数据集图像. 这些方法的不足就是特征或参考数据集不具有足够的代表性, 使得软标签不够准确, 降低模型性能.
4)基于聚类的方法[20-26], 为了充分利用无标签的目标域数据, 利用聚类算法产生的伪标签来当作目标域的标签, 这类方法在大量的实验中被证明在当前具有最好的效果. Fu等[20]提出的自相似性分组(Self-similarity grouping, SSG) 模型通过将特征图垂直平均划分为六个局部特征, 利用局部特征来分配多尺度的聚类伪标签. Zhai等[21]提出一种新的判别聚类的方法增广判别聚类(Augmented discriminative clustering, AD-Cluster), 通过基于密度的聚类算法, 自适应地扩充样本和判别特征学习来解决无监督跨域的行人重识别问题. Yang等[22]提出一种非对称协同框架, 充分利用了在聚类算法中通常被舍弃的离群点来监督网络的训练. Ge等[23]专注于聚类伪标签噪声的影响提出同步平均教学网络模型(Mutual mean teaching, MMT), 利用两个相同的网络相互监督训练. Wang等[24]在MMT的基础上提出将注意力波动模块(Attentive waveblock, AWB)集成到两个网络中, 使得两个网络学习到具有差异性的特征, 增强网络的互补性. 基于聚类的方法往往与聚类算法的准确率有大的关系, 且明显缺陷是模型的准确性过度依赖于聚类产生的伪标签的质量, 而且随着网络的迭代, 伪标签的噪声会越来越大.
受MMT模型的启发, 本文在基于聚类算法的跨域行人重识别基础上, 针对聚类算法生成的伪标签带有噪声的问题, 设计自适应融合网络模型. 该模型采用双网络结构共同学习并对双网络结构进行网络融合, 利用融合后的网络监督双网络结构训练, 有效解决了单网络情况下伪标签噪声不断扩大的问题. 同时, 为了降低模型对相机变换的敏感性, 本文设计了细粒度的风格转换模块. 细粒度的风格转换模块区别于以往的利用GAN进行数据集扩充的方法, 是在细粒度级别上针对于在同一个数据集上的不同相机风格进行图像生成, 而不是在源域和目标域之间作图像生成, 通过starGAN给每张行人图像都生成所有相机风格下的生成图像, 在扩充数据集的同时, 增强了模型的鲁棒性. 相比于联合判别生成学习网络(Joint discriminative and generative learning network, DGNet)[27]以身份标签为基础的风格转换模式, 本文方法专注于相机域间的风格转换, 对每个相机下的图像都生成其他相机风格的生成图像, 增强了模型对相机的鲁棒性.
2. 基于自适应融合网络的跨域行人重识别方法
在众多的跨域行人重识别方法中, 基于聚类的方法有着强大的竞争力, 由于忽略了对聚类伪标签噪声的处理而导致噪声随着网络迭代而不断扩大. 本文针对于此, 主要研究伪标签噪声在网络训练中扩大的问题, 并提出基于自适应融合网络的行人重识别, 并利用细粒度风格转换降低不同相机间视角下的风格差异性, 提高模型的适应性. 本节将详细介绍提出的方法.
2.1 问题定义
给定一个带有真实标签的源域数据集
$ S =\{X_{s}, Y_{s}\} $ , 其中$ X_{s} $ 代表源域的图像,$ Y_{s} $ 代表图像$ X_{s} $ 对应的真实标签, 源域数据集$ {S} $ 中包含$ N_{s} $ 张图像,$ N_{s} $ 张图像共具有$ I_{s} $ 个身份标签, 源域中每个行人图像$x_{s, i} \in X_{s}\left(i = 1,2, \cdots, N_{s}\right)$ 具有唯一的身份标签$y_{s, i} \in$ $Y_{s} $ .给定一个无标签的目标域数据集
$ T = \left\{X_{t}\right\} $ , 其中$ X_{t} $ 代表目标域的图像, 数量为$ N_{t} $ , 每张行人图像$ x_{t, i} \in X_{t} $ 都不具有标签信息. 本文利用自适应融合网络模块来学习跨域的行人重识别, 以便将有标签的源域学习到的知识迁移到无标签的目标域上利用. 本文模型见图1. 首先, 对目标域训练集下的图像进行全相机细粒度风格转换得到新的目标域; 然后, 对模型采用双网络结构进行训练, 并通过自适应的融合策略将两个网络学习到的知识进行结合得到融合网络, 融合网络的分类结果作为双网络结构的监督信号指导模型训练.2.2 源域预训练
为将源域学习到的知识更好地迁移到目标域上, 本文利用源域数据集对模型进行预训练, 并将预训练的模型参数作为训练目标域数据集的初始化参数.
对于参数为
$ \theta $ 的深度神经网络模型$ M_{s} $ , 首先在源域数据集上对模型进行有监督地预训练. 源域中的每张行人图像$ x_{s, i} \in X_{s} $ 通过模型$ M_{s} $ 提取出特征$ f\left(x_{s, i} \mid \theta\right) $ , 并最终输出对图像的身份预测$ p\left(x_{s, i} \mid \theta\right) $ . 本文采用交叉熵损失和三元组损失[28]来优化源域预训练模型. 交叉熵损失定义为:$$ \begin{equation} L_{s, i d} = -\frac{1}{N_{s}} \sum\limits_{{i} = 1}^{N_{s}} p\left(y_{s, i} \mid x_{s, i}^{\theta}\right) \end{equation} $$ (1) 式中,
$ p\left(y_{s, i} \mid x_{s, i}^{\theta}\right) $ 是图像$ x_{s,i} $ 在模型参数为$ \theta $ 的情况下预测属于$ y_{s,i} $ 的概率. 三元组损失定义为:$$ \begin{equation} \begin{split} L_{s, t r i} = &\frac{1}{N_{s}} \times \sum\limits_{i = 1}^{N_{s}} \ln \Big(m+\left\|f_{s}^+\left(x_{s, i}^{\theta}\right)\right\|_{2}-\\ &\left\|f_{s}^-\left(x_{s, i}^{\theta}\right)\right\|_{2}\Big) \end{split} \end{equation} $$ (2) 式中,
$ f_{s}^{+}\left(x_{s, i}^{\theta}\right) = f\left(x_{s, i}^{\theta}\right)-f\left(x_{s, i+}^{\theta}\right) $ ,$f_{s}^{-}\left(x_{s, i}^{\theta}\right) = f\left(x_{s, i}^{\theta}\right)-f\left(x_{s, i-}^{\theta}\right)$ ,$ x_{s, i+}^{\theta} $ 和$ x_{s, i-}^{\theta} $ 分别是基准样本$ x_{s, i}^{\theta} $ 的正样本和负样本,$ \|\cdot\|_{2} $ 代表欧氏距离,$ m $ 是边距参数.2.3 目标域聚类
为了解决目标域数据集缺少真实标签的问题, 本文利用Mini-Batch
$ k $ -means聚类算法产生伪标签用于训练. 首先, 目标域图像经过网络提取得到特征$ f\left(x_{t, i} \mid \theta\right) $ . 其次, 对特征$ f\left(x_{t, i} \mid \theta\right) $ 进行Mini-Batch$ k $ -means聚类算法得到$ I_{t} $ 个类别, 同一个类别内的图像具有相同的伪标签$ y_{t} $ .为了充分利用聚类得到的伪标签进行模型的提高, 本文使用了交叉熵损失和三元组损失. 模型的交叉熵损失定义为:
$$ \begin{equation} L_{i d} = -\frac{1}{N_{t}} \sum\limits_{k = 1}^{2} \sum\limits_{i = 1}^{N_{t}} p\left(y_{t, i} \mid x_{t, i}^{\theta_{k}}\right) \end{equation} $$ (3) 式中,
$ k $ 表示双网络结构中的两个网络, 取值为1或2.$p(y_{t, i} \mid x_{t, i}^{\theta_{k}})$ 是图像$ x_{t,i} $ 在模型参数为$ \theta_{k} $ 的情况下预测属于$ y_{t,i} $ 的概率. 模型的三元组损失定义为:$$ \begin{equation} \begin{split} L_{t r i} = &\frac{1}{N_{t}}\times\sum\limits_{i = 1}^{N_{t}} \ln \Big(m+\left\|f_{t}^+\left(x_{t, i}^{\theta}\right)\right\|_{2}-\\ &\left\|f_{t}^-\left(x_{t, i}^{\theta}\right)\right\|_{2}\Big) \end{split} \end{equation} $$ (4) 式中,
$ f_{t}^{+}\left(x_{t, i}^{\theta_{k}}\right) = f\left(x_{t, i}^{\theta_{k}}\right)-f\left(x_{t, i+}^{\theta_{k}}\right) $ ,$f_{t}^{-}\left(x_{t, i}^{\theta_{k}}\right) = f\left(x_{t, i}^{\theta_{k}}\right)-f\left(x_{t, i-}^{\theta_{k}}\right)$ .2.4 双网络结构
基于聚类的跨域行人重识别方法的效果往往与聚类算法的精度成正相关, 为了增强网络对聚类伪标签的抗噪能力, 本文模型采用双网络结构进行表征学习. 双网络结构采用两个相同的ResNet50网络作为主干网络进行目标域的训练, 但对两个网络采用不同的预训练初始化参数. 同时, 为了使两个网络能够学习到区别于彼此的特征, 对输入到两个网络中的目标域图像进行不同的预处理, 包括随机翻转、擦除、裁剪处理.
双网络结构的设计专注于对抗伪标签噪声问题, 防止出现单网络结构下噪声随着迭代不断扩大的情况. 但是, 随着训练的进行, 两个网络学习能力会逐渐靠近, 可能会出现两个网络收敛到彼此相等的位置, 这违背了双网络结构的设计初衷. 对此, 为了保有两个网络每一次知识学习的经验, 本文采用经验平均模型代替两个ResNet50网络进行融合. 经验平均模型的参数是对应的双网络结构中网络参数的加权平均, 而不是通过反向传播得到的, 所以不会明显增大网络的计算量. 对于在第T次迭代下网络
$ k $ 的经验平均模型定义为$ H_{T}\left(\theta_{k}\right) $ , 经验平均模型对网络每一次迭代的学习能力进行保留, 并通过式(5)进行更新:$$ \begin{equation} H_{T}\left(\theta_{k}\right) = \alpha H_{T-1}\left(\theta_{k}\right)+(1-\alpha) \theta_{k}, \ \ k = 1,2 \end{equation} $$ (5) 式中,
$ \alpha \in[0,1] $ 是一个动量更新因子,$ H_{T-1}\left(\theta_{k}\right) $ 是在($ T{-}1 $ )次迭代时网络的经验平均模型. 当$ T = 0 $ 时,$ H_{0}\left(\theta_{k}\right) = \theta_{k} $ .2.5 自适应融合网络
为了使双网络结构的训练获得更有效的监督, 本文选择对双网络进行知识融合. 融合后的网络包含两个网络学习到的知识, 相比于单网络结构的学习, 双网络在学习过程中进行了相互补充, 并且利用融合网络的输出去监督两个网络的训练, 可以有效避免噪声随着迭代的进行而扩大. 虽然两个网络具有相同的结构, 但是学习知识的能力是不同的, 所以在每一次融合的时候不能单纯地平等对待两个网络. 对此, 提出一种自适应融合策略用于解决两个网络的融合权重问题. 自适应融合策略是基于类内离散度和类间离散度计算得到的, 类内离散度表示每个图像样本特征和所属类别平均特征的差距, 类间离散度表示的是每个类别的平均特征和所有样本的平均特征的差距.
具体地, 通过聚类算法将所有目标域样本聚类到
$ I_{t} $ 个类别中, 并用$ C $ 来表示每个聚类, 那么第$ k $ 个网络中的第$ i $ 个聚类$ C_i $ 的类内离散度被定义为:$$ \begin{equation} S_{\text {intra }, k}^{i} = \sum\limits_{x \in C_{i}}\left\|f\left(x_{t} \mid \theta_{k}\right)-\mu_{i, k}\right\|_{2}^{2}, \ \ k = 1,2 \end{equation} $$ (6) 式中,
$ \mu_{i, k} $ 是第$ i $ 个聚类$ C_{i} $ 中所有图像在第$ k $ 个网络上的平均特征. 第$ k $ 个网络中的第$ i $ 个聚类$ C_{i} $ 的类间离散度被定义为:$$ \begin{equation} S_{\text {inter }, k} = \sum\limits_{i = 1}^{I_{t}} n_{t, i}\left\|\mu_{i, k}-\mu_{k}\right\|_{2}^{2}, \ \ k = 1,2 \end{equation} $$ (7) 式中,
$ \mu_{k} $ 是目标域中所有训练样本在第$ k $ 个网络上的平均特征,$ n_{t,i} $ 是目标域中所有训练样本的数量. 利用类内离散度和类间离散度得出第$ k $ 个网络的自适应平衡因子:$$ \begin{equation} J_{k} = \frac{S_{\text {inter}, k}}{\sum\limits_{i = 1}^{I_{t}} S_{\text {intra}, k}^{i}}, \ \ k = 1,2 \end{equation} $$ (8) 自适应平衡因子
$ J_{k} $ 量化了网络的学习能力,$ J_{k} $ 越大代表网络的学习能力越强. 当类间离散度变大或者类内离散度变小的时候,$ J_{k} $ 也会相应地变大. 通过自适应平衡因子可以计算双网络结构的自适应融合权重:$$ \begin{equation} w_{k} = \frac{J_{k}}{J_{1}+J_{2}} , \ \ k = 1,2 \end{equation} $$ (9) 式中,
$ w_{k} $ 代表第$ k $ 个网络的融合权重.在每次迭代获得两个网络的经验平均模型之后, 通过融合权重比例对双网络进行融合. 由于融合网络只用于双网络结构的监督, 所以不会影响两个网络独立地更新. 参数为
$ \theta_{f} $ 自适应融合网络定义为:$$ \begin{equation} H_{T}\left(\theta_{f}\right) = \sum\limits_{k = 1}^{2} w_{k} H_{T}\left(\theta_{k}\right) \end{equation} $$ (10) 由于融合网络采用的是网络对行人身份的分类预测, 而不是对聚类算法产生的伪标签进行训练, 所以设计了融合交叉熵损失和融合三元组损失来优化双网络结构模型. 融合交叉熵损失利用了融合网络的分类预测以及每个网络的分类预测, 其定义为:
$$ \begin{equation} \begin{split} L_{u i d} = &-\frac{1}{N_{t}}\times \\ &\sum\limits_{k = 1}^{2} \sum\limits_{i = 1}^{N_{t}} p_{j}\left(x_{t, i} \mid H_{T}\left(\theta_{f}\right)\right) \ln p_{j}\left(x_{t, i} \mid H_{T}\left(\theta_{k}\right)\right) \end{split} \end{equation} $$ (11) 融合三元组损失是在三元组损失的基础上结合分类预测得到:
$$ \begin{equation} \begin{split} L_{u t r i} =\; &-\frac{1}{N_{t}} \sum\limits_{k = 1}^{2} \sum\limits_{i = 1}^{N_{t}}\left(F_{i}\left(\theta_{f}\right) \ln F_{i}\left(\theta_{k}\right)+\right.\\ &\left.\left(1-F_{i}\left(\theta_{f}\right)\right) \ln \left(1-\ln F_{i}\left(\theta_{k}\right)\right)\right) \end{split} \end{equation} $$ (12) 式中
$$ \begin{equation} \begin{split} F_{i}\left(\theta_{k}\right) =\; &m+\left\|f\left(x_{s, i}^{\theta_{k}}\right)-f\left(x_{s, i+}^{\theta_{k}}\right)\right\|_{2} - \\ & \left\|f\left(x_{s, i}^{\theta_{k}}\right)-f\left(x_{s, i-}^{\theta_{k}}\right)\right\|_{2}, \ k = 1,2 \end{split} \end{equation} $$ (13) $$ \begin{equation} \begin{split} F_{i}\left(\theta_{f}\right) = \;&m+\left\|f\left(x_{s, i}^{\theta_{f}}\right)-f\left(x_{s, i+}^{\theta_{f}}\right)\right\|_{2} -\\ &\left\|f\left(x_{s, i}^{\theta_{f}}\right)-f\left(x_{s, i-}^{\theta_{f}}\right)\right\|_{2}, \ k = 1,2 \end{split} \end{equation} $$ (14) 最后结合基于伪标签的交叉熵损失和三元组损失以及基于融合网络的融合交叉熵损失和融合三元组损失定义模型的整体损失:
$$ \begin{equation} \begin{split} L =\;&\left(1-\lambda_{i d}\right) L_{u i d}+\lambda_{i d} L_{i d} \ + \\ &\left(1-\lambda_{t r i}\right) L_{u t r i}+\lambda_{t r i} L_{t r i} \end{split} \end{equation} $$ (15) 式中,
$ \lambda_{i d} $ 和$ \lambda_{t r i} $ 是权重参数, 用来平衡不同损失之间的影响.2.6 细粒度风格转换
虽然自适应融合网络可以有效减少聚类伪标签噪声的影响, 但是由于行人重识别数据集的行人图像由多个不同视角的相机捕捉而成, 相机风格的变换使得即使是同一身份的行人也难以被分辨, 造成网络对相机具有一定的敏感性. 受PTGAN[12]启发, 本文利用生成对抗网络降低模型对相机的敏感度. 不同于PTGAN在源域和目标域间进行风格转换, 本文的风格转换模块是在目标域相机间进行的细粒度级别的风格转换.
如图2所示, 细粒度风格转换模块将行人图像在广义上分割成行人因子和风格因子, 行人因子包含图像中行人部分, 风格因子包含除行人部分外的其他部分. 其中每个相机下的风格因子假定是相同的, 利用starGAN网络为每个相机训练一个生成因子的生成器. 最后, 通过保留每张图像的行人因子, 而替换图像的风格因子达到行人图像风格转换的目的. 对于存在
$ E $ 个不同视角的相机, 图像$ x_{t, i} \in X_{t} $ 属于相机$ A $ , 那么需要生成相机$ (E-A) $ 风格的转换图像. 最终, 将生成后的图像加入到目标域数据集一起训练.2.7 总的算法流程
本文提出的自适应融合网络的跨域行人重识别方法总的算法流程见算法1.
算法1. 自适应融合网络
输入. 源域数据集
$ S = \{X_{s},Y_{s}\} $ , 目标域数据集$ T = \{X_{t}\} $ ; 动量更新因子$ \alpha $ , 权重参数$ \lambda_{i d} $ 和$ \lambda_{t r i} $ ; 聚类数量$ K $ , 学习率$ lr $ ; 原始模型$ \varphi\left(\theta_{o}\right) $ .输出. 自适应融合网络模型
$ \varphi\left(\theta_{t}\right) $ .1)通过源域数据集S对原始模型进行预训练得到初始化参数
$ \theta_{s} $ .2)利用starGAN对目标域数据集进行细粒度风格转换得到新的目标域数据集.
3)利用两个网络分别对新的目标域数据集进行特征提取得到图像特征
$f(x_{t, i}^{\theta_{1}})$ 和$f(x_{t, i}^{\theta_{2}})$ .4)利用Mini-Batch k-means聚类算法为特征
$f(x_{t, i}^{\theta_{1}})$ 和$f(x_{t, i}^{\theta_{2}})$ 生成伪标签$ y_{1} $ 和$ y_{2} $ .5)基于伪标签, 利用式(3)和式(4)分别计算交叉熵损失和三元组损失.
6)利用式(9)计算两个网络的自适应融合权重
$ w_{1} $ 和$ w_{2} $ .7)基于融合权重, 利用式(10)对两个网络的经验平均模型进行融合.
8)基于融合网络, 利用式(11)和式(12)分别计算融合交叉熵损失和融合三元组损失.
9)利用式(15)对模型进行优化.
3. 实验结果域分析
为了验证方法的有效性, 本文在Market1501[29]、 DukeMTMC-ReID[30]和MSMT17[15]三个行人重识别基准数据集上对本文方法进行评估, 包括与主流方法的对比、消融实验和参数分析.
3.1 数据集与评估指标
Market1501[29]数据集包含取自6个不同相机视角的1501个身份的总共32668张行人图像, 其中包含751个身份的12936张图像用于训练集, 另外包含750个身份的19732张图像用于测试集. 在测试集中又分为包含19732张的Gallery集和3368张的Query集. 这些图像通过可变形部分模型[31]进行身份检测.
DukeMTMC-ReID[30]数据集是DukeMTMC[32]的子集, 包含取自8个摄像机视角的1812个身份图像. 其中16552用作训练集, 17661用作Galle-ry集, 2228用作Query集. 在1812个身份中, 1404个出现在至少2个摄像头, 其余的出现在1个摄像头中.
MSMT17[15]数据集是目前行人重识别领域最大的数据集. 由12台室外摄像机和3台室内摄像机拍摄的126441张照片组成. 这些图像代表4101个身份, 并按照1:3的比例随机分为训练集和测试集. 训练集包含1041个身份, 共32621张图像, 而测试集包含3060个身份, 共93820张图像. 对于测试集, 随机选择11659张图像作为Query集, 而其他82161张图像作为Gallery集.
本文实验使用平均精度均值(Mean average precision, mAP)和Rank-n准确率对本文中涉及到的行人重识别模型性能进行量化评价. 其中, mAP将所有类别的平均精度进行综合加权平均而得到的; Rank-n是检索结果中前
$ n $ 位候选的准确率, 本文主要选择Rank-1、Rank-5和Rank-10进行评估.3.2 实验设置
本文模型的训练包含源域的预训练和目标域的跨域自适应两部分. 在图像输入到网络之前, 将图像的大小调整为256 × 128. 根据经验将边距参数
$ m $ 设置为0.5.本文实验基于Pytorch框架, 使用Pytorch1.1版本, 使用2个GTX-2080TI GPU进行训练, 1个GTX-2080TI GPU进行测试. 采用自适应矩估计优化器对网络进行优化, 权值衰减为0.0005.
在源域的预训练阶段, 本文使用在ImageNet[33]上预训练过的ResNet-50作为主干网络. 初始学习率设置为0.00035, 总共进行80次迭代, 并在第40次和70次的迭代时, 将初始学习率减少到了原来的1/10.
在目标域的跨域自适应阶段, 利用在源域预训练中得到的预训练权重作为网络的初始权重. 总共进行80次迭代, 学习率固定设置为0.0001, 并将式(5)中的动量更新因子
$ \alpha $ 设置为0.999, 式(15)中的权重参数$ \lambda_{i d} $ 设置为0.6,$ \lambda_{t r i} $ 设置为0.8. 分别将作为目标域的Market1501、DukeMTMC-ReID和MSMT17实验中Mini-Batch k-menas聚类算法的聚类个数设置为500、700和1500.本文模型的参数量如表1所示. 在计算单网络参数量的情况下乘2得到模型整体的参数量.
表 1 本文的自适应融合网络模型参数量表Table 1 The model parameter number of the proposed adaptive fusion network参数 取值 总参数 23512128 × 2 可训练参数 23512128 × 2 参数大小 (MB) 89.69 × 2 估计总大小 (MB) 1199.45 × 2 3.3 实验结果
3.3.1 与主流行人重识别方法比较
本节将本文提出的算法与当前主流的行人重识别算法进行比较. 比较方法包括: 1)无监督方法. 自底向上聚类(Bottom-up clustering, BUC)[34]和软化的相似性学习(Softened similarity learning, SSL)[35]; 2)无监督跨域的方法. 多任务中层特征对齐网络(Multi-task mid-level feature alignment, MMFA)[36]、可迁移联合属性−身份深度学习(Tra-nsferable joint attribute-identity deep learning, TJ-AIDL)[11]、基于差异的最大平均差异损失(Dissimilarity-based maximum mean discrepancy loss, D-MMD)[12]、三重对抗学习和多视角想象推理网络(Triple adversarial learning and multi-view imaginative reasoning network, TAL-MIRN)[37] (基于域分布对齐的方法); 自适应迁移网络(Adaptive transfer network, ATNet)[13]、相似性保持生成对抗网络 + 局部最大池化(Similarity preserving generative adversarial network + local max pooling, SPGAN + LMP)[14]、异构−同构学习(Hetero-homogeneous learning, HHL)[16] (基于GAN的方法); 范例相机近邻不变性(Exemplar-invariance, camera-invariance and neighborhood-invariance, EC-N)[17]、多标签参考学习(Multilabel reference learning, MAR)[18] (基于特征相似性计算的方法); 无监督领域自适应行人重识别(Unsupervised domain adaptive person re-identification, UDAP)[38]、带有渐进式增强框架的基于部分的卷积基线(Part-based convolutional baseline-progressive augmentation framework, PCB-PAST)[39]、自相似性分组(Self-similarity grouping, SSG)[20]、增广判别聚类(Augmented discriminative clustering, AD-Clu-ster)[21]、同步平均教学框架(Mutual mean-teaching framework, MMT)[23]、多专家头脑风暴网络(Multiple expert brainstorming network, MEB-Net)[40]、软迭代标签聚类(Soft iterative label clustering, SILC)[41]、双流互反解纠缠学习(Dual-stream reciprocal disentanglement learning, DR-DL)[42]、基于渐进式表征增强的自训练(Self-training with progressive representation enhancement, PREST)[43]、具有混合记忆的自步对比学习框架(Self-paced contrastive learning with hybrid me-mory, SpCL)[44]、多损失优化学习(Multi-loss optimization learning, MLOL)[45]、不确定性引导的噪声回弹网络(Uncertainty-guided noise resilient network, UNRN)[46] (基于聚类的方法). “本文方法 + 不确定性”是在文献[46]和文献[47]的启发下, 利用Kullback-Leibler (KL)散度计算双网络结构中两个网络的不确定性, 然后利用不确定性来约束损失函数的计算. 所有对比的方法结果是从源论文中获得的, 无监督方法没有用到源域数据集, 仅在目标域数据集上进行训练.
表2展示了在Market1501和DukeMTMC-ReID数据集上的实验结果. 由表2可以看出, 在实验准确率上无监督跨域方法普遍优于无监督方法, 其中采用聚类算法的无监督跨域行人重识别相比于其他3个无监督跨域行人重识别算法在整体上可达到最佳效果. 如表1所示, 当以DukeMTMC-ReID作源域, Market1501作目标域时, 本文方法的mAP达到了79.1%, Rank-1达到了91.8%. 当以Market1501作源域, DukeMTMC-ReID作目标域时, 本文方法的mAP达到了68.5%, Rank-1达到了81.7%. 这是由于本文的融合网络模型很好地抑制了伪标签噪声, 所以可以更有效地利用伪标签去训练. 同时, 采用基于细粒度的风格转换模块可以在克服相机敏感性的问题上扩充数据集, 提升了模型的识别能力. 当模型在双网络结构知识互补的基础上对损失加入不确定性的差异约束使得模型准确率得到了进一步的提升, 在以Market1501作目标域和DukeMTMC-ReID作目标域时, “本文方法 + 不确定性”的mAP分别达到了79.9%和69.8%, Rank-1分别达到了92.3% 和82.1%.
表 2 在Market1501和DukeMTMC-ReID上与主流方法比较 (%)Table 2 Comparison with the state-of-the-art methods on Market1501 and DukeMTMC-ReID (%)方法 Duke-to-Market Market-to-Duke mAP Rank-1 Rank-5 Rank-10 mAP Rank-1 Rank-5 Rank-10 BUC[34] 38.3 66.2 79.6 84.5 27.5 47.4 62.6 68.4 SSL[35] 37.8 71.7 87.4 37.8 28.6 52.5 63.5 68.9 MMFA[36] 27.4 56.7 75.0 81.8 24.7 45.3 59.8 66.3 TJ-AIDL[11] 26.5 58.2 74.8 81.1 23.0 44.3 59.6 65.0 D-MMD[12] 75.1 89.5 95.6 97.1 62.7 79.3 89.3 92.0 TAL-MIRN[37] 40.0 73.1 86.3 — 41.3 63.5 76.7 — ATNet[13] 25.6 55.7 73.2 79.4 24.9 45.1 59.5 64.2 SPGAN + LMP[14] 26.7 57.7 75.8 82.4 26.2 46.4 62.3 68.0 HHL[16] 31.4 62.2 78.8 84.0 27.2 46.9 61.0 66.7 ECN[17] 43.0 75.1 87.6 91.6 40.4 63.3 75.8 80.4 MAR[18] 67.7 81.9 87.3 40.0 67.1 79.8 84.2 48.0 UDAP[38] 53.7 75.8 89.5 93.2 49.0 68.4 80.1 83.5 PCB-PAST[39] 54.6 78.4 — — 54.3 72.4 — — SSG[20] 58.3 80.0 90.0 92.4 53.4 73.0 80.6 83.2 AD-Cluster[21] 68.3 86.7 94.4 96.5 54.1 72.6 82.5 85.5 MMT-500[23] 71.2 87.7 94.9 96.9 63.1 76.8 88.0 92.2 MEB-Net[40] 76.0 89.9 96.0 97.5 66.1 79.6 88.3 92.2 SILC[41] 61.8 80.7 90.1 93.0 50.3 68.5 80.2 85.4 DRDL[42] 42.7 76.8 88.5 91.6 43.2 65.3 76.9 82.2 PREST[43] 62.4 82.5 92.1 94.9 56.1 74.4 83.7 85.9 SpCL[44] 76.7 90.3 96.2 97.7 68.8 82.9 90.1 92.5 MLOL[45] 70.9 86.6 93.1 95.1 69.8 83.1 90.8 93.0 UNRN[46] 78.1 91.9 96.1 97.8 69.1 82.0 90.7 93.5 本文方法 79.1 91.8 97.1 98.2 68.5 80.7 90.1 92.6 本文方法 + 不确定性 79.9 92.3 97.4 98.3 69.8 82.1 90.5 93.1 与SpCL方法相比, 本文方法在Market-to-Duke上的准确率略低, 这是由于SpCL对源域和目标域上的所有可用信息进行编码以学习特征, 但是这同样会使其域适应性能力降低. 在双网络结构的基础上利用不确定性约束损失函数的“本文方法 + 不确定性”中, 除了Rank-1之外都有所提升, 且mAP比SpCL高1%, 说明了利用不确定性对损失函数进行约束可以有效降低伪标签噪声.
MLOL方法在Market-to-Duke上实验表现较好, 然而在其他实验中的识别准确率都远低于本文方法. 如表3所示, SpCL和MLOL在MSMT17数据集上的低准确率侧面印证了两者的局限性.
表 3 在MSMT17上与主流方法比较 (%)Table 3 Comparison with the state-of-the-art methods on MSMT17 (%)方法 Duke-to-MSMT17 Market-to-MSMT17 mAP Rank-1 Rank-5 Rank-10 mAP Rank-1 Rank-5 Rank-10 ECN[17] 10.2 30.2 41.5 46.8 8.5 25.3 36.3 42.1 SSG[20] 13.3 32.2 — 51.2 13.2 31.6 — 49.6 MMT-1500[23] 23.3 50.1 63.9 69.8 22.9 49.2 63.1 68.8 SILC[41] 12.6 33.1 45.2 48.0 10.9 27.8 38.1 45.8 TAL-MIRN[37] 14.2 39.0 51.5 — 11.2 30.9 43.5 — DRDL[42] 14.9 42.0 53.7 59.1 14.7 38.6 51.4 57.1 PREST[43] 18.5 43.8 57.5 63.6 15.9 37.8 51.8 57.8 SpCL[44] 26.5 53.1 65.8 70.5 25.4 51.6 64.3 69.7 MLOL[45] 22.4 48.3 60.7 66.1 21.7 46.9 59.4 64.7 UNRN[46] 26.2 54.9 67.3 70.6 25.3 52.4 64.7 69.7 本文方法 30.2 60.4 73.3 77.9 29.4 59.6 72.8 77.5 本文方法 + 不确定 30.8 61.0 73.9 78.3 30.6 61.0 73.7 78.0 为进一步验证本文方法的有效性, 在更大更接近现实场景的MSMT17数据集上进行了实验. 表3为在MSMT17数据集上的实验结果. 当DukeMTMC-ReID数据集作为源域时, 本文方法的mAP达到30.2%, Rank-1达到60.4%; 当Market1501数据集作为源域时, mAP达到29.4%, Rank-1达到59.6%. 在具有挑战性的大型数据集MSMT17上的高性能表现进一步证明了本文方法的有效性, 而且通过不确定性对损失函数进行约束同样在MSMT17的数据集上也显示了它的有效性, Duke-to-MSMT17和Market-to-MSMT17的各项指标都有所提升.
3.3.2 消融实验
为了验证双网络结构、经验平均模型、自适应融合策略以及风格转换4个模块的有效性, 在Market1501和DukeMTMC-reID数据集上进行了消融实验, 实验结果如表4所示. 直接转换表示目标域数据集直接在源域的预训练模型上进行测试; 基线表示仅使用聚类方法的伪标签部分进行训练. F为双网络结构且没有采用自适应融合策略, T为经验平均模型, A为自适应融合策略, S为细粒度风格转换模块, w为添加上述模块.
表 4 在Market1501和DukeMTMC-ReID上的消融实验 (%)Table 4 Ablation experiments on Market1501 and DukeMTMC-ReID (%)方法 Duke-to-Market Market-to-Duke mAP Rank-1 Rank-5 Rank-10 mAP Rank-1 Rank-5 Rank-10 直接转换 31.8 61.9 76.4 82.2 29.9 46.2 61.9 68.0 基线 53.5 76.0 88.1 91.9 48.2 66.4 79.8 84.0 本文方法 w/F 74.3 90.2 95.8 97.6 62.9 77.1 87.9 91.5 本文方法 w/(F + T) 77.6 91.5 96.8 98.1 66.3 79.0 89.6 92.3 本文方法 w/(F + T + A) 78.2 91.7 96.9 98.1 66.9 79.9 89.7 92.2 本文方法 w/(F + T + S) 78.9 91.2 96.8 98.0 67.5 80.3 89.9 92.4 本文方法 w/(F + T + A + S) 79.1 91.8 97.1 98.2 68.5 80.7 90.1 92.6 为了促进网络的融合, 先利用平均融合代替自适应融合, 进行“F + A”的实验时再采用自适应融合策略. 另外, 细粒度风格转换模块只应用在目标域数据集上, 而不用于源域数据集的预训练. 消融实验证明了提出的双网络结构、经验平均模型、自适应融合策略以及风格转换每一个模块单独的有效性及它们之间相互组合的有效性. 采用双网络结构使模型准确率相比于“基线”得到大幅度的提升, 之后以双网络结构为基础分别加入自适应融合模块、经验平均模型和细粒度风格转换模块都使模型准确率进一步得到提高. 最终, 将4个模块一起使用的模型达到了最优的效果, mAP为79.1%, Rank-1为91.8%. 值得注意的是, 本文的风格转换模块可以作为一个即插即用的模块, 用于增强模型对相机风格变换的鲁棒性, 对于同一数据集只需要进行一次风格转换即可在后续的实验中多次应用.
3.3.3 参数分析
本节分析了损失函数中平衡交叉熵损失和融合交叉熵损失的超参数
$ \lambda_{id} $ 、平衡三元组损失和融合三元组损失的超参数$ \lambda_{tri} $ 、Mini-Batch k-means聚类算法应用在不同数据集的超参数聚类数量. 默认情况下, 改变一个超参数的同时另外两个超参数固定不变.图3比较了式(15)中不同的
$ \lambda_{id} $ 取值对实验结果的影响. 当$\lambda_{id} = 0$ 时, 表示本文方法只应用融合交叉熵损失; 当$ \lambda_{id} = 1 $ 时, 表示本文方法只应用交叉熵损失. 可以看出,$ \lambda_{id} $ 取值为0或1的实验结果都没有取中间值好, 这表明同时交叉熵损失和融合交叉熵损失的必要性, 也证明融合网络模型的有效性. 当$ \lambda_{id} = 0.8 $ 时, 本文模型达到了最高准确率.图4比较了式(15)中不同的
$ \lambda_{t r i} $ 取值对实验结果的影响. 当$ \lambda_{tri} = 0 $ 时, 表示只应用融合三元组损失; 当$ \lambda_{tri} = 1 $ 时, 表示只应用三元组损失. 当$ \lambda_{tri} = 0.6 $ 时, 本文模型达到了最高的准确率. 在图5中, 比较了不同的聚类数量取值对实验结果的影响. 当进行Duke-to-Market和Market-to-Duke的实验时, 聚类数量为500和700时模型效果最好. 当进行Duketo-MSMT17和Market-to-MSMT17的实验时, 聚类数量为1500时模型效果最好.3.3.4 聚类算法对比
在基于聚类的跨域行人重识别方法中, 聚类算法的效果与实验结果的准确率成正比关系, 即聚类算法效果越好, 实验结果准确率越高. 聚类算法效果越好, 聚类伪标签所带有的噪声就越少, 模型训练就越不容易产生偏差. 为了探究不同聚类算法的应用对本文模型的影响, 在本节对Mini-Batch k-means、k-means和噪声环境下基于密度的空间聚类研究(Density-based spatial clustering of applications with noise, DBSCAN)聚类算法进行了对比, 实验结果如表5所示. 为了对比模型应用不同聚类算法时在运算效率上的差异, 表5展示了模型采用Mini-Batch k-means、k-means和DBSCAN聚类算法时每次迭代的运算时间(s). 当使用Mini-Batch k-means或k-means聚类算法时, 两者的实验准确率相差不大, k-means效果略好于Mini-Batch k-means, 但k-means所需运行时间高于Mini-Batch k-means. 当使用DBSCAN聚类算法时, 在Duke-to-Market实验时mAP达到了80.1%, Rank-1达到了92.3%;在Market-to-Duke实验时mAP达到了69.9%, Rank-1达到了82.1%。相比于使用Mini-Batch k-means或k-means, 实验准确率有着明显的提升, 但是DBSCAN所需的运算时间也是远高于Mini-Batch k-means和k-means的. 出于对运算时间的考虑和准确率的综合考虑, 本文模型采用Mini-Batch k-means进行实验.
表 5 聚类算法对比Table 5 Comparison of clustering algorithms方法 Duke-to-Market Market-to-Duke mAP (%) R-1 (%) R-5 (%) R-10 (%) 运行时间 (s) mAP (%) R-1 (%) R-5 (%) R-10 (%) 运行时间 (s) Mini-Batch k-means 79.1 91.8 97.1 98.2 811 68.5 80.7 90.1 92.6 908 k-means 79.3 91.8 97.2 98.1 1472 68.8 80.9 90.1 92.6 1669 DBSCAN 80.1 92.3 97.4 98.4 3224 69.9 82.1 90.7 92.9 3643 4. 结束语
目前基于聚类的跨域行人重识别方法忽略了聚类伪标签的噪声问题, 导致模型效果无法到达有监督的行人重识别方法水平. 本文提出基于细粒度风格转换的自适应融合网络方法, 采用双网络结构共同学习, 并对双网络进行自适应融合, 利用融合后的网络监督双网络训练. 同时, 为了解决数据集图像对相机敏感性的问题, 对目标域图像进行细粒度的风格转换, 将转换后的扩充目标域数据集应用于训练. 与现有的基于聚类的跨域方法相比, 本文模型取得了更高的准确率. 在三个行人重识别基准数据集Market1501、DukeMTMC-ReID、MSMT17上的实验结果充分验证了本文方法的有效性. 未来研究工作将考虑进行多个不同网络结构的融合, 以便使不同网络可以学习到彼此更具有差异性的知识, 引导模型走出局部最优, 减少伪标签噪声的影响.
-
表 1 本文的自适应融合网络模型参数量表
Table 1 The model parameter number of the proposed adaptive fusion network
参数 取值 总参数 23512128 × 2 可训练参数 23512128 × 2 参数大小 (MB) 89.69 × 2 估计总大小 (MB) 1199.45 × 2 表 2 在Market1501和DukeMTMC-ReID上与主流方法比较 (%)
Table 2 Comparison with the state-of-the-art methods on Market1501 and DukeMTMC-ReID (%)
方法 Duke-to-Market Market-to-Duke mAP Rank-1 Rank-5 Rank-10 mAP Rank-1 Rank-5 Rank-10 BUC[34] 38.3 66.2 79.6 84.5 27.5 47.4 62.6 68.4 SSL[35] 37.8 71.7 87.4 37.8 28.6 52.5 63.5 68.9 MMFA[36] 27.4 56.7 75.0 81.8 24.7 45.3 59.8 66.3 TJ-AIDL[11] 26.5 58.2 74.8 81.1 23.0 44.3 59.6 65.0 D-MMD[12] 75.1 89.5 95.6 97.1 62.7 79.3 89.3 92.0 TAL-MIRN[37] 40.0 73.1 86.3 — 41.3 63.5 76.7 — ATNet[13] 25.6 55.7 73.2 79.4 24.9 45.1 59.5 64.2 SPGAN + LMP[14] 26.7 57.7 75.8 82.4 26.2 46.4 62.3 68.0 HHL[16] 31.4 62.2 78.8 84.0 27.2 46.9 61.0 66.7 ECN[17] 43.0 75.1 87.6 91.6 40.4 63.3 75.8 80.4 MAR[18] 67.7 81.9 87.3 40.0 67.1 79.8 84.2 48.0 UDAP[38] 53.7 75.8 89.5 93.2 49.0 68.4 80.1 83.5 PCB-PAST[39] 54.6 78.4 — — 54.3 72.4 — — SSG[20] 58.3 80.0 90.0 92.4 53.4 73.0 80.6 83.2 AD-Cluster[21] 68.3 86.7 94.4 96.5 54.1 72.6 82.5 85.5 MMT-500[23] 71.2 87.7 94.9 96.9 63.1 76.8 88.0 92.2 MEB-Net[40] 76.0 89.9 96.0 97.5 66.1 79.6 88.3 92.2 SILC[41] 61.8 80.7 90.1 93.0 50.3 68.5 80.2 85.4 DRDL[42] 42.7 76.8 88.5 91.6 43.2 65.3 76.9 82.2 PREST[43] 62.4 82.5 92.1 94.9 56.1 74.4 83.7 85.9 SpCL[44] 76.7 90.3 96.2 97.7 68.8 82.9 90.1 92.5 MLOL[45] 70.9 86.6 93.1 95.1 69.8 83.1 90.8 93.0 UNRN[46] 78.1 91.9 96.1 97.8 69.1 82.0 90.7 93.5 本文方法 79.1 91.8 97.1 98.2 68.5 80.7 90.1 92.6 本文方法 + 不确定性 79.9 92.3 97.4 98.3 69.8 82.1 90.5 93.1 表 3 在MSMT17上与主流方法比较 (%)
Table 3 Comparison with the state-of-the-art methods on MSMT17 (%)
方法 Duke-to-MSMT17 Market-to-MSMT17 mAP Rank-1 Rank-5 Rank-10 mAP Rank-1 Rank-5 Rank-10 ECN[17] 10.2 30.2 41.5 46.8 8.5 25.3 36.3 42.1 SSG[20] 13.3 32.2 — 51.2 13.2 31.6 — 49.6 MMT-1500[23] 23.3 50.1 63.9 69.8 22.9 49.2 63.1 68.8 SILC[41] 12.6 33.1 45.2 48.0 10.9 27.8 38.1 45.8 TAL-MIRN[37] 14.2 39.0 51.5 — 11.2 30.9 43.5 — DRDL[42] 14.9 42.0 53.7 59.1 14.7 38.6 51.4 57.1 PREST[43] 18.5 43.8 57.5 63.6 15.9 37.8 51.8 57.8 SpCL[44] 26.5 53.1 65.8 70.5 25.4 51.6 64.3 69.7 MLOL[45] 22.4 48.3 60.7 66.1 21.7 46.9 59.4 64.7 UNRN[46] 26.2 54.9 67.3 70.6 25.3 52.4 64.7 69.7 本文方法 30.2 60.4 73.3 77.9 29.4 59.6 72.8 77.5 本文方法 + 不确定 30.8 61.0 73.9 78.3 30.6 61.0 73.7 78.0 表 4 在Market1501和DukeMTMC-ReID上的消融实验 (%)
Table 4 Ablation experiments on Market1501 and DukeMTMC-ReID (%)
方法 Duke-to-Market Market-to-Duke mAP Rank-1 Rank-5 Rank-10 mAP Rank-1 Rank-5 Rank-10 直接转换 31.8 61.9 76.4 82.2 29.9 46.2 61.9 68.0 基线 53.5 76.0 88.1 91.9 48.2 66.4 79.8 84.0 本文方法 w/F 74.3 90.2 95.8 97.6 62.9 77.1 87.9 91.5 本文方法 w/(F + T) 77.6 91.5 96.8 98.1 66.3 79.0 89.6 92.3 本文方法 w/(F + T + A) 78.2 91.7 96.9 98.1 66.9 79.9 89.7 92.2 本文方法 w/(F + T + S) 78.9 91.2 96.8 98.0 67.5 80.3 89.9 92.4 本文方法 w/(F + T + A + S) 79.1 91.8 97.1 98.2 68.5 80.7 90.1 92.6 表 5 聚类算法对比
Table 5 Comparison of clustering algorithms
方法 Duke-to-Market Market-to-Duke mAP (%) R-1 (%) R-5 (%) R-10 (%) 运行时间 (s) mAP (%) R-1 (%) R-5 (%) R-10 (%) 运行时间 (s) Mini-Batch k-means 79.1 91.8 97.1 98.2 811 68.5 80.7 90.1 92.6 908 k-means 79.3 91.8 97.2 98.1 1472 68.8 80.9 90.1 92.6 1669 DBSCAN 80.1 92.3 97.4 98.4 3224 69.9 82.1 90.7 92.9 3643 -
[1] 叶钰, 王正, 梁超, 韩镇, 陈军, 胡瑞敏. 多源数据行人重识别研究综述. 自动化学报, 2020, 46(9): 1869-1884Ye Yu, Wang Zheng, Liang Chao, Han Zhen, Chen Jun, Hu Rui-Min. A survey on multi-source person re-identification. Acta Automatica Sinica, 2020, 46(9): 1869-1884 [2] Ye M, Shen J B, Lin G J, Xiang T, Shao L, Hoi S C H. Deep learning for person re-identification: A survey and outlook. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6): 2872-2893 doi: 10.1109/TPAMI.2021.3054775 [3] 李幼蛟, 卓力, 张菁, 李嘉锋, 张辉. 行人再识别技术综述. 自动化学报, 2018, 44(9): 1554-1568Li You-Jiao, Zhuo Li, Zhang Jing, Li Jia-Feng, Zhang Hui. A survey of person re-identification. Acta Automatica Sinica, 2018, 44(9): 1554-1568 [4] Bai S, Bai X, Tian Q. Scalable person re-identification on supervised smoothed manifold. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (ICCV). Honolulu, USA: IEEE, 2017. 3356−3365 [5] 罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展. 自动化学报, 2019, 45(11): 2032-2049Luo Hao, Jiang Wei, Fan Xing, Zhang Si-Peng. A survey on deep learning based person re-identification. Acta Automatica Sinica, 2019, 45(11): 2032-2049 [6] 张云鹏, 王洪元, 张继, 陈莉, 吴琳钰, 顾嘉晖, 等. 近邻中心迭代策略的单标注视频行人重识别. 软件学报, 2021, 32(12): 4025-4035Zhang Yun-Peng, Wang Hong-Yuan, Zhang Ji, Chen Li, Wu Lin-Yu, Gu Jia-Hui, et al. One-shot video-based person re-identification based on neighborhood center iteration strategy. Journal of Software, 2021, 32(12): 4025-4035 [7] 刘一敏, 蒋建国, 齐美彬, 刘皓, 周华捷. 融合生成对抗网络和姿态估计的视频行人再识别方法. 自动化学报, 2020, 46(3): 576-584Liu Yi-Min, Jiang Jian-Guo, Qi Mei-Bin, Liu Hao, Zhou Hua-Jie. Video-based person re-identification method based on GAN and pose estimation. Acta Automatica Sinica, 2020, 46(3): 576-584 [8] Wang M L, Lai B S, Huang J Q, Gong X J, Hua X S. Camera-aware proxies for unsupervised person re-identification. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(4): 2764-2772 doi: 10.1609/aaai.v35i4.16381 [9] Wu Y M, Wu X T, Li X, Tian J. MGH: Metadata guided hypergraph modeling for unsupervised person re-identification. In: Proceedings of the 29th ACM International Conference on Multimedia. Virtual Event China: 2021. 1571−1580 [10] Chen H, Lagadec B, Bremond F. ICE: Inter-instance contrastive encoding for unsupervised person re-identification. In: Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 14940−14949 [11] Wang J Y, Zhu X T, Gong S G, Li W. Transferable joint attribute-identity deep learning for unsupervised person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 2275−2284 [12] Mekhazni D, Bhuiyan A, Ekladious G, Granger E. Unsupervised domain adaptation in the dissimilarity space for person re-identification. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: 2020. 159−174 [13] Liu J W, Zha Z J, Chen D, Hong R C, Wang M. Adaptive transfer network for cross-domain person re-identification. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 7195−7204 [14] Deng W J, Zheng L, Ye Q X, Kang Q L, Yi Y, Jiao J B. Image-image domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 994−1003 [15] Wei L H, Zhang S L, Wen G, Tian Q. Person transfer GAN to bridge domain gap for person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 79−88 [16] Zhong Z, Zheng L, Li S Z, Yang Y. Generalizing a person retrieval model hetero- and homogeneously. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 172−188 [17] Zhong Z, Zheng L, Luo Z M, Li S Z, Yang Y. Invariance matters: Exemplar memory for domain adaptive person re-identification. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 598−607 [18] Yu H X, Zheng W S, Wu A C, Guo X W, Gong S G, Lai J H. Unsupervised person re-identification by soft multilabel learning. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 2143−2152 [19] Saito K, Watanabe K, Ushiku Y, Harada T. Maximum classifier discrepancy for unsupervised domain adaptation. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 3723−3732 [20] Fu Y, Wei Y C, Wang G S, Zhou Y Q, Shi H H, Uiuc U, et al. Self-similarity grouping: A simple unsupervised cross domain adaptation approach for person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE, 2019. 6111−6120 [21] Zhai Y P, Lu S J, Ye Q X, Shan X B, Chen J, Ji R R, et al. AD-Cluster: Augmented discriminative clustering for domain adaptive person re-identification. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 9018−9027 [22] Yang F X, Li K, Zhong Z, Luo Z M, Sun X, Cheng H, et al. Asymmetric co-teaching for unsupervised cross-domain person re-identification. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12597-12604 doi: 10.1609/aaai.v34i07.6950 [23] Ge Y X, Chen D P, Li H S. Mutual mean-teaching: Pseudo label refinery for unsupervised domain adaptation on person re-identification. arXiv: 2001.01526, 2020 [24] Wang W H, Zhao F, Liao S C, Shao L. Attentive WaveBlock: Complementarity-enhanced mutual networks for unsupervised domain adaptation in person re-identification and beyond. IEEE Transactions on Image Processing, 2022, 31: 1532-1544 doi: 10.1109/TIP.2022.3140614 [25] Bertocco G C, Andaló F, Rocha A. Unsupervised and self-adaptative techniques for cross-domain person re-identification. IEEE Transactions on Information Forensics and Security, 2021, 16: 4419-4434 doi: 10.1109/TIFS.2021.3107157 [26] Sheng K K, Li K, Zheng X W, Liang J, Dong W M, Huang F Y, et al. On evolving attention towards domain adaptation. arXiv: 2103.13561, 2021 [27] Zheng Z D, Yang X D, Yu Z D, Zheng L, Yang Y, Kautz J. Joint discriminative and generative learning for person re-identification. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 2133−2142 [28] Hermans A, Beyer L, Leibe B. In defense of the triplet loss for person re-identification. arXiv: 1703.07737, 2017 [29] Zheng L, Shen L Y, Tian L, Wang S J, Wang J D, Tian Q. Scalable person re-identification: A benchmark. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 1116−1124 [30] Zheng Z D, Zheng L, Yang Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 3774−3782 [31] Felzenszwalb P F, Girshick R B, McAllester D, Ramanan D. Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645 doi: 10.1109/TPAMI.2009.167 [32] Ristani E, Solera F, Zou R, Cucchiara R, Tomasi C. Performance measures and a data set for multi-target, multi-camera tracking. In: Proceedings of the European Conference on Computer Vision. Amsterdam, Netherlands: Springer, 2016. 17−35 [33] Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S A, et al. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115(3): 211-252 doi: 10.1007/s11263-015-0816-y [34] Lin Y T, Dong X Y, Zheng L, Yan Y, Yang Y. A bottom-up clustering approach to unsupervised person re-identification. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 8738-8745 doi: 10.1609/aaai.v33i01.33018738 [35] Lin Y T, Xie L X, Wu Y, Yan C G, Tian Q. Unsupervised person re-identification via softened similarity learning. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 3387−3396 [36] Lin S, Li H L, Li C T, Kot A C. Multi-task mid-level feature alignment network for unsupervised cross-dataset person re-identification. In: Proceedings of the 29th British Machine Vision Conference. Newcastle, UK: 2018. [37] Li H F, Dong N, Yu Z T, Tao D P, Qi G Q. Triple adversarial learning and multi-view imaginative reasoning for unsupervised domain adaptation person re-identification. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(5): 2814-2830 doi: 10.1109/TCSVT.2021.3099943 [38] Song L C, Wang C, Zhang L F, Du B, Zhang Q, Huang C, et al. Unsupervised domain adaptive re-identification: Theory and practice. Pattern Recognition, 2020, 102: Article No. 107173 doi: 10.1016/j.patcog.2019.107173 [39] Zhang X Y, Cao J W, Shen C H, You M Y. Self-training with progressive augmentation for unsupervised cross-domain person re-identification. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision. Seoul, Korea (South): IEEE, 2019. 8221−8230 [40] Zhai Y P, Ye Q X, Lu S J, Jia M X, Ji R R, Tian Y H. Multiple expert brainstorming for domain adaptive person re-identification. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: 2020. 594−611 [41] Ainam J P, Qin K, Owusu J W, Lu G M. Unsupervised domain adaptation for person re-identification with iterative soft clustering. Knowledge-Based Systems, 2021, 212: Article No. 106644 doi: 10.1016/j.knosys.2020.106644 [42] Li H F, Xu K X, Li J X, Lu G M, Xu Y, Yu Z T, et al. Dual-stream reciprocal disentanglement learning for domain adaptation person re-identification. arXiv: 2106.13929, 2021 [43] Zhang H, Cao H H, Yang X, Deng C, Tao D C. Self-training with progressive representation enhancement for unsupervised cross-domain person re-identification. IEEE Transactions on Image Processing, 2021, 30: 5287-5298 doi: 10.1109/TIP.2021.3082298 [44] Ge Y X, Zhu F, Chen D P, Zhao R, Li H S. Self-paced contrastive learning with hybrid memory for domain adaptive object re-ID. In: Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2020. 11309−11321 [45] Sun J, Li Y F, Chen H J, Peng Y H, Zhu J L. Unsupervised cross domain person re-identification by multi-loss optimization learning. IEEE Transactions on Image Processing, 2021, 30: 2935-2946 doi: 10.1109/TIP.2021.3056889 [46] Zheng K C, Lan C L, Zeng W J, Zhan Z Z, Zha Z J. Exploiting sample uncertainty for domain adaptive person re-identification. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(4): 3538-3546 doi: 10.1609/aaai.v35i4.16468 [47] Zheng Z D, Yang Y. Rectifying pseudo label learning via uncertainty estimation for domain adaptive semantic segmentation. International Journal of Computer Vision, 2021, 129(4): 1106-1120 doi: 10.1007/s11263-020-01395-y 期刊类型引用(4)
1. 王梓歌,葛利跃,陈震,张聪炫,王子旭,舒铭奕. 联合深度超参数卷积和交叉关联注意力的大位移光流估计. 自动化学报. 2024(08): 1631-1645 . 本站查看
2. 周洋,韩冰,高新波,杨铮,陈玮铭. 基于注意力机制和循环域三元损失的域自适应目标检测. 自动化学报. 2024(11): 2188-2203 . 本站查看
3. 余文涛,赵倩,季堂煜. 基于颜色随机化和全相关注意力的跨模态行人重识别. 国外电子测量技术. 2023(06): 10-16 . 百度学术
4. 陈昊,张宝华,吕晓琪,谷宇,王月明,刘新,任彦,李建军,张明. 软伪标签和多尺度特征融合的行人重识别. 激光与光电子学进展. 2022(24): 232-239 . 百度学术
其他类型引用(13)
-