Research Progress, Challenge and Prospect of Local Features for Person Re-Identification
-
摘要: 行人重识别(Person re-identification, Re-ID)旨在跨区域、跨场景的视频中实现行人的检索及跟踪, 其成果在智能监控、刑事侦查、反恐防暴等领域具有广阔的应用前景. 由于真实场景下的行人图像存在光照差异大、拍摄视角不统一、物体遮挡等问题, 导致从图像整体提取的全局特征易受无关因素的干扰, 识别精度不高. 基于局部特征的方法通过挖掘行人姿态、人体部位、视角特征等关键信息, 可加强模型对人体关键区域的学习, 降低无关因素的干扰, 从而克服全局特征的缺陷, 也因此成为近几年的研究热点. 本文对近年基于局部特征的行人重识别文献进行梳理, 简述了行人重识别的发展历程, 将基于局部特征的方法归纳为基于姿势提取、基于特征空间分割、基于视角信息、基于注意力机制四类, 并详细阐述了每一类的原理及优缺点. 然后在三个主流行人数据集上对典型方法的识别性能进行了分析比较, 最后总结了目前基于局部特征算法的难点, 并对未来本领域的研究趋势和发展方向进行展望.Abstract: Person re-identification (Re-ID) aims to achieve pedestrian retrieval and tracking in cross-region and cross-scene video. Its achievements have broad application prospects in intelligent monitoring, criminal investigation, counter-terrorism and riot control. Due to pedestrian images in real scenes having problems such as large illumination differences, different shooting angles, and object occlusion, the global feature is susceptible to interference from irrelevant factors, resulting in low recognition accuracy. The local feature-based method strengthens the model's learning of key areas of the human body and reduces the interference of irrelevant factors by mining key information such as pedestrian posture, human body parts, and perspective features. Because the local feature method overcomes the defect of the global feature, it has become a research focus in recent years. In this paper, we combed the literature of Re-ID based on local features in recent years, and briefly described the development process of Re-ID. The methods based on local features can be classified into four categories: postural extraction, feature spatial partition, viewpoint information and attention mechanism. This paper first elaborates on the principles, advantages and disadvantages of each category. Then we summarize some typical methods in detail and compare their performance on three mainstream Re-ID data sets. Finally, this paper summarizes the difficulties of the method based on local features, and looks forward to the future research trend and development direction of this field.
-
Key words:
- Person re-identification (Re-ID) /
- local feature /
- deep learning /
- computer vision
-
图像复原旨在对图像降质过程进行建模, 求解降质模型的逆过程, 从降质图像中恢复出原始的清晰图像. 模糊是一种常见的图像降质现象, 通常由于相机的抖动、散焦以及物体的运动造成. 单幅图像去模糊问题研究如何从一幅模糊图像中恢复出原始的清晰图像. 根据模糊核是否已知, 去模糊方法可分为两类: 1)若模糊核已知, 则称为非盲复原方法; 2)若模糊核未知, 则称为盲复原方法.
对于均匀模糊图像的形成过程可以表示为如下卷积模型
$${\boldsymbol{y}} = {\boldsymbol{h}}\ast{\boldsymbol{x}}+{\boldsymbol{n}}$$ (1) 其中,
${\boldsymbol{y}}$ 表示模糊图像,${\boldsymbol{x}}$ 表示清晰图像,$\ast$ 表示卷积运算,${\boldsymbol{h}}$ 为模糊核,${\boldsymbol{n}}$ 为噪声. 在卷积模型下, 图像盲复原即研究如何从模糊图像中同时估计出模糊核${\boldsymbol{h}}$ 和清晰图像${\boldsymbol{x}}$ . 由于将模糊过程建模为卷积的形式, 因此盲复原问题也称为盲解卷积问题.图像盲解卷积是一个严重的欠定逆问题, 待求解的未知变量数目大于已知方程的数目, 解不唯一. 现有的大部分方法通过引入模糊核和图像的先验知识来约束问题的解空间.
一类为基于显著边缘的方法, 此类方法充分利用图像中的显著边缘结构对模糊核进行估计. Jia等[1]首先利用图像边缘进行运动模糊核的估计, 其边缘的选取是通过手工抠图完成的, 这一方法非常依赖抠图的准确性. Joshi等[2]直接从模糊图像中提取出显著边缘, 并根据提取的边缘估计模糊核, 然而, 由于很难直接从大模糊图像中提取显著性边缘, 此方法仅对于小模糊图像较为有效. Cho等[3]利用冲击滤波器(Shock filter)对图像进行边缘的选择并用于模糊核估计; Xu等[4]在该方法的基础上验证了不同宽度的边缘对于模糊核估计的影响. 这种方法由于增强模糊图像的边缘, 在迭代求解的过程中, 为了避免出现边缘过增强等现象, 一般需要根据迭代次数不断调节边缘增强算法的参数, 因而对参数设置较为敏感.
另一类为基于最大后验概率(Maximum a posteriori estimation, MAP)估计或其变分模型的方法[5-18]. 基于MAP估计的方法在条件概率服从某一种噪声模型, 结合清晰图像和模糊核的先验概率模型的假设条件下, 通过最大化后验概率来估计清晰图像和模糊核, 而变分模型则是在噪声概率模型服从高斯分布的条件下, 通过负对数函数将最大化后验概率问题转换为最小二乘问题. 早期, Chan 等[5]利用全变分的方法来约束清晰图像的梯度. Levin等[6]提出了一种超拉普拉斯先验建模图像的梯度来估计模糊核. Fergus等[7]假设清晰图像的梯度服从拖尾分布(Heavy-tailed distribution), 结合高斯分布模型利用变分贝叶斯方法和期望最大化求解最大后验概率问题. Levin等[8]证明直接求解最大后验概率问题偏向获得平凡解, 即模糊图像本身和二维狄拉克函数, 这是因为图像梯度先验在很多情况下偏向于模糊图像, 而不是清晰图像. Perrone等[9]利用全变分正则化进行模糊核的估计, 并且证明了投影交替最小化(Projected alternating minimization, PAM)方法可以有效避免平凡解. 图像梯度表示邻域内像素之间的关系, 由于自然图像包含复杂的结构, 仅利用相邻像素之间的关系很难清楚地描述这种复杂的结构, 基于图像块的先验可以表示更大更复杂的图像结构. Michaeli等[10]利用不同尺度图像之间图像块的相似性作为先验来估计模糊核. Zhang等[11] 将图像块的稀疏表示作为先验进行模糊估计, 并利用K-SVD (K-singular value decomposition)算法[19]通过其他自然图像或模糊图像本身训练字典. Ren等[12]构造了图像亮度和梯度的低秩约束先验用于模糊核的估计. Pan等[13]在模糊核的估计中引入了暗通道先验, 即图像块中不同通道的最小像素值, 但是这种方法不适用于缺乏暗像素以及有噪的图像, 这是因为在这种情况下, 无法保证暗通道的稀疏性. 在Pan等[13] 方法的基础上, Yan等[14]结合亮通道先验与暗通道先验作为约束项以提高算法的鲁棒性. 常振春等[15] 将图像块的稀疏表示和非局部(Non-local)自相似模型作为先验进行模糊核的估计. Chen等[16]利用
$\ell_1$ 范数约束局部最大梯度值作为正则化项来估计模糊核.本文将上述方法统称为基于模型的方法. 近些年, 基于深度学习的方法[20-23]逐渐广泛应用于图像去模糊领域. 最初, 此类方法主要是采用深度卷积神经网络(Convolution neural network, CNN)模型实现对清晰图像的估计或者对模糊核的估计. Su等[20]首先提出了一种基于深度卷积神经网络的视频去模糊算法, 该方法通过卷积神经网络模型端到端地学习多帧模糊图像与清晰图像之间的关系并用于清晰图像的复原. Yan等[21]利用深度卷积神经网络进行模糊核分类并利用广义回归神经网络(General regression neural network, GRNN)进行模糊核参数的估计. Sun等[22]设计了一种基于马尔科夫随机场(Markov random field, MRF)的卷积神经网络用于非均匀模糊核的估计. 从卷积神经网络到近期提出的生成式对抗网络(Generative adversarial network, GAN)[24], 基于深度学习的方法取得了更好的去模糊效果. Kupyn等[23]利用条件生成式对抗网络(Conditional generative adversarial network, cGAN)进行去模糊, 使网络直接输出清晰图像. 然而, 基于深度学习的方法主要有3个方面的问题: 1) 网络很难训练, 需要大量的训练数据, 而且对参数的设置非常敏感; 2)网络无法保证输出的结果符合数据保真项, 虽然在训练过程中可以产生较好的效果, 但是在不同于训练数据特征的图像上可能会失效; 3) 对于估计不同类型的模糊核, 需要用不同的模糊图像训练网络, 且很难获取真实模糊训练数据集. 综上所述, 基于深度学习的方法受到了一定程度的限制.
目前大部分的盲解卷积算法对噪声较为敏感, 尤其对于大模糊有噪图像, 无法准确估计模糊核. 本文的算法旨在构造基于图像块的先验模型, 解决大模糊有噪图像的模糊核估计问题. 本文提出了一种基于跨尺度低秩约束的单幅图像盲解卷积算法, 利用跨尺度自相似性, 在降采样图像中搜索相似的图像块, 构成相似块图像组矩阵, 通过对相似图像块组矩阵进行低秩约束, 迫使当前图像在迭代中更加清晰, 使重建图像接近清晰图像. 一方面, 模糊降低了图像的跨尺度自相似性, 清晰图像的跨尺度自相似性强于模糊图像的跨尺度自相似性, 因此图像跨尺度低秩先验使解偏向清晰图像而不是模糊图像; 另一方面, 降采样减弱了图像的模糊程度, 与模糊图像相比, 其降采样图像与清晰图像具有更强的相似性, 迫使模糊图像更加接近清晰图像. 文献[10]在上述两点结论的基础上, 通过约束相似图像块与清晰图像块之间的相似性来估计模糊核, 该算法与本文的算法均利用跨尺度自相似性提供的附加信息进行模糊核估计, 不同之处在于该算法将图像中的各个图像块与其每一个相似图像块进行单独比较, 相似图像块之间是相互独立的, 通过最小化清晰图像块与相似图像块之间的均方误差来约束清晰图像块. 为了更好地利用相似图像块之间的相关性, 本文的算法将降采样图像中的相似图像块构造为一个相似图像块组, 并对该组进行整体的低秩约束, 一是非局部相似图像块引入了附加的空间结构信息, 更有利于图像块空间结构的重建, 二是噪声数据在相似图像块组数据中更加稀疏, 更有利于从稀疏噪声中恢复潜在的图像数据, 因此, 本文的算法能够解决大尺寸模糊核的盲解卷积问题, 并且避免盲解卷积过程受噪声的干扰.
本文后续结构组织如下: 第1节描述本文提出的图像跨尺度低秩先验模型; 第2节阐述本文提出的基于跨尺度低秩先验的图像盲解卷积模型以及求解过程; 第3节通过定量和定性实验验证本文算法的有效性; 第4节分析跨尺度低秩先验的有效性与局限性; 第5节为全文的总结.
1. 图像跨尺度低秩先验
跨尺度自相似性普遍存在于自然图像中, 本文从模糊图像的降采样图像中搜索相似图像块组成相似块组矩阵, 对跨尺度相似图像块组矩阵进行低秩约束.
1.1 图像跨尺度自相似性
多尺度自相似性是指在同一场景中存在着相同尺度以及不同尺度的相似结构. 这种多尺度自相似性具体表现为图像中所具有的相同尺度以及不同尺度的相似图像块[25], 即从图像中提取一个图像块, 可在原尺度图像及其他尺度的图像中找到相似的图像块. 相机的透视投影是图像的多尺度自相似性普遍存在的主要原因. Glasner等[26]通过大量图像的实验证明了相似图像块普遍存在于同一场景的相同尺度以及不同尺度图像中, 由于小尺寸的图像块只含有少量信息, 通常只包含一个边缘、角点等, 因此, 即使人类视觉不易察觉小尺寸的相似图像块, 但这些图像块普遍存在于自然图像的多尺度图像中. 不同尺度的图像自相似性简称为跨尺度自相似性.
图1展示了自然图像的多尺度自相似性. 图1(a)为一幅清晰的自然图像, 对于红色方框标记的一个7×7的图像块, 在该图像中搜索同尺度相似图像块, 用蓝色方框标记, 图1(b)为清晰图像中给定图像块及其同尺度相似图像块的细节放大图. 对图1(a)进行2倍降采样, 如图1(c)所示, 图中蓝色方框标记的图像块为在该图像中搜索的跨尺度相似图像块, 图1(d)为清晰图像中给定图像块及其跨尺度相似图像块的细节放大图, 其中, 红色方框为原尺度图像中给定的图像块. 跨尺度自相似性存在于不同尺度的图像中, 而模糊图像的模糊核会随着图像尺度的变化而发生尺度变换, 即同一幅模糊图像的不同尺度图像的模糊程度不同, 从而导致模糊图像的跨尺度自相似性减弱, 如图2所示. 图2(a)为图1(a)对应的模糊图像, 红色方框标记了模糊图像中对应的7×7图像块, 蓝色方框标记了该图像中的同尺度相似图像块, 图2(b)为模糊图像中给定图像块及其同尺度相似图像块的细节放大图. 同样地, 对图2(a)进行2倍降采样, 如图2(c)所示, 图中蓝色方框标记了在降采样模糊图像中搜索的跨尺度相似图像块, 图2(d)为模糊图像中给定图像块及其跨尺度相似图像块的细节放大图. 通过观察图2(b)和图2(d)可以发现, 对于模糊图像, 同尺度相似图像块有着较强的相似性, 而跨尺度相似图像块的相似性明显减弱. 通过观察图1和图2说明了清晰图像的跨尺度自相似性强于模糊图像的跨尺度自相似性.
图3说明了降采样模糊图像比模糊图像本身与清晰图像的相似性更强. 对于图1(b)中红色方框标记的清晰图像块, 在图3(a)所示的模糊图像和图3(c)所示降采样模糊图像中搜索其相似图像块并用蓝色方框标记, 图3(b)和图3(d)分别为搜索的相似图像块的细节放大图. 通过比较图3(b)和图3(d)可以看出, 由于降采样模糊图像的模糊程度减弱, 从降采样模糊图像中搜索的相似块相比从模糊图像本身搜索的相似块, 与清晰图像块具有更强的相似性.
跨尺度自相似性可以为图像盲复原提供必要的附加信息. 图4给出了跨尺度自相似性在图像复原应用中的解释, 图中左边为清晰图像及其降采样图像, 右边为模糊图像及其降采样图像. 参照Michaeli等[10]通过一维信号对模糊信号的降采样信号与清晰信号相似性的证明, 本文利用二维信号进行简要证明, 记二维坐标为
$\xi$ 和$\eta$ . 由于跨尺度自相似性普遍存在于自然场景中, 在图中左边, 假设${p}_1(\xi,\eta)$ 、${p}_2(\xi,\eta)$ 为同一场景中不同尺寸的相似结构, 忽略采样问题的影响,${p}_2(\xi,\eta)$ 的尺寸为${p}_1(\xi,\eta)$ 的$a$ 倍, 可表示为${p}_2(\xi,\eta) = {p}_1({\xi}/{a},{\eta}/{a})$ ,${p}_2^a(\xi,\eta)$ 为${p}_2(\xi,\eta)$ 的降采样版本, 即$${p}_2^a(\xi,\eta) = {p}_2(a\xi,a\eta) = {p}_1(\xi,\eta)$$ (2) 因此,
${p}_2^a(\xi,\eta)$ 与${p}_1(\xi,\eta)$ 具有相同的尺寸; 在图中右边,${p}_3(\xi,\eta)$ ,${p}_4(\xi,\eta)$ 分别为${p}_1(\xi,\eta)$ ,${p}_2(\xi,\eta)$ 的模糊版本, 即$$\quad\;{p}_3(\xi,\eta) = {p}_1(\xi,\eta)\ast {h}(\xi,\eta)$$ (3) $$\qquad \qquad\qquad\begin{split}{p}_4(\xi,\eta) =\;& {p}_2(\xi,\eta)\ast{h}(\xi,\eta) =\\ &{p}_1\left(\frac{\xi}{a},\frac{\eta}{a}\right)\ast{h}(\xi,\eta) \end{split}$$ (4) 其中,
${h}(\xi,\eta)$ 为模糊核.${p}_4^a(\xi,\eta)$ 为${p}_4(\xi,\eta)$ 的降采样版本, 由式(4)可得$${p}_4^a(\xi,\eta) = {p}_4(a\xi,a\eta) = {p}_1(\xi,\eta)\ast {h}(a\xi,a\eta)$$ (5) ${p}_4^a(\xi,\eta)$ 与${p}_3(\xi,\eta)$ 具有相同的尺寸. 根据式(5),${p}_4^a(\xi,\eta)$ 可认为是由清晰结构${p}_1(\xi,\eta)$ 与模糊核${h}(a\xi,a\eta)$ 卷积的结果, 由于${h}(a\xi,a\eta)$ 的尺寸是${h}(\xi,\eta)$ 的$1/a$ 倍, 因此, 相比于${h}(\xi,\eta)$ ,${h}(a\xi,a\eta)$ 对图像造成的模糊程度更小.为了描述简便, 将二维信号表示为向量形式. 比较式(3)和式(5)可知,
${\boldsymbol{p}}_4^a$ 比${\boldsymbol{p}}_3$ 的边缘更加清晰, 相比于${\boldsymbol{p}}_3$ ,${\boldsymbol{p}}_4^a$ 的边缘更接近清晰结构${\boldsymbol{p}}_1$ 的边缘, 可得: 结论1)${{SIM}}({\boldsymbol{p}}_1,{\boldsymbol{p}}_4^a)>{{SIM}}({\boldsymbol{p}}_1,{\boldsymbol{p}}_3)$ ; 同时, 结合式(2)可以看出, 相比于${\boldsymbol{p}}_1$ 与${\boldsymbol{p}}_2^a$ ,${\boldsymbol{p}}_3$ 与${\boldsymbol{p}}_4^a$ 的相似性较弱, 可得: 结论2)${{SIM}}({\boldsymbol{p}}_1,{\boldsymbol{p}}_2^a)>{{SIM}}({\boldsymbol{p}}_3,{\boldsymbol{p}}_4^a)$ , 其中,${{SIM}}(\cdot)$ 表示相似性度量. 结论1)表明降采样模糊图像相比于模糊图像本身与清晰图像具有更强的相似性, 即${\boldsymbol{p}}_4^a$ 与${\boldsymbol{p}}_1$ 比${\boldsymbol{p}}_3$ 与${\boldsymbol{p}}_1$ 更加相似, 在复原过程中,${\boldsymbol{p}}_4^a$ 能够为${\boldsymbol{p}}_1$ 的重建提供更多更准确的结构信息. 结论2)表明清晰图像比模糊图像具有更强的跨尺度自相似性, 即${\boldsymbol{p}}_1$ 与${\boldsymbol{p}}_2^a$ 比${\boldsymbol{p}}_3$ 与${\boldsymbol{p}}_4^a$ 的相似性更强, 在复原过程中, 基于此性质的先验模型求解偏向于获得清晰图像.1.2 跨尺度低秩先验模型
设清晰图像
${\boldsymbol{x}}\in{\bf{R}}^{N}$ 的降采样图像表示为${\boldsymbol{x}}^{a}\in $ ${\bf{R}}^{N/a^2}$ ①, 其中$N$ 为清晰图像的像素数,$a$ 为降采样因子. 从清晰图像${\boldsymbol{x}}$ 及其降采样图像${\boldsymbol{x}}^{a}$ 中抽取的图像块分别表示为${\boldsymbol{Q}}_j {\boldsymbol{x}}$ 和${\boldsymbol{R}}_i{\boldsymbol{x}}^{a},$ 其中${\boldsymbol{Q}}_j\in{\bf{R}}^{n\times N}$ 和${\boldsymbol{R}}_i\in{\bf{R}}^{n\times N/a^2}$ 为抽取矩阵, 分别用于从清晰图像及其降采样图像中抽取第$j$ 个和第$i$ 个图像块, 抽取的图像块尺寸为$n$ . 对于图像中的任意图像块${\boldsymbol{Q}}_j {\boldsymbol{x}}$ , 在降采样图像${\boldsymbol{x}}^{a}$ 中搜索其相似图像块${\boldsymbol{R}}_i{\boldsymbol{x}}^{a}$ . 由于图像的不同尺度间广泛存在着跨尺度相似图像块, 即对于${\boldsymbol{Q}}_j{\boldsymbol{x}}$ , 可以在降采样图像${\boldsymbol{x}}^{a}$ 中寻找多个与其相似的图像块. 设在${\boldsymbol{x}}^{a}$ 中搜索$m-1$ 个与${\boldsymbol{Q}}_j{\boldsymbol{x}}$ 最相似的图像块, 并按列表示为${\boldsymbol{R}}_{j_i}{\boldsymbol{x}}^{a} \in{{\bf{R}}}^{n},i = 1,\cdots,$ ${m-1},{\boldsymbol{Q}}_j{\boldsymbol{x}}$ 与这些在降采样图像中的相似图像块聚合构成一个跨尺度相似图像块组${\boldsymbol{P}}_{j}$ , 可表示为$${\boldsymbol{P}}_{j} = [{\boldsymbol{Q}}_j{\boldsymbol{x}}, {\boldsymbol{R}}_{j_1}{\boldsymbol{x}}^{a},\cdots,{\boldsymbol{R}}_{j_{m-1}}{\boldsymbol{x}}^{a} ]\in{\bf{R}}^{n\times m}$$ (6) 其中,
$n$ 为图像块的尺寸,$m$ 为图像块的个数.本文提出了一种基于跨尺度自相似性的低秩先验模型, 利用低秩矩阵估计(Low rank matrix approximation, LRMA)对跨尺度相似图像块组矩阵进行低秩约束, 该先验模型如下所示
$$ \begin{split}&\min\limits_{{\boldsymbol{L}}_{j}} \Vert {\boldsymbol{P}}_{j}-{\boldsymbol{L}}_{j} \Vert^{2}_{ {\rm{F}}} \\ & {\rm{s.t.}} \;\;{\rm{rank}} ({\boldsymbol{L}}_{j})\le t \end{split}$$ (7) 式中,
${\boldsymbol{P}}_{j}$ 表示图像块${\boldsymbol{Q}}_j{\boldsymbol{x}}$ 与其在降采样图像中搜索的相似图像块构成的组矩阵,${\boldsymbol{L}}_{j}$ 表示观测矩阵${\boldsymbol{P}}_{j}$ 中潜在的低秩结构,${\left\| \cdot \right\|}_ {{\rm{F}}}$ 表示矩阵Frobenius范数,${\rm{rank}} (\cdot)$ 为秩函数,$t$ 为限制矩阵秩的常数. 跨尺度低秩先验模型的有效性体现在如下两点: 1)由于模糊的作用, 清晰图像的跨尺度自相似性强于模糊图像的跨尺度自相似性, 此先验使目标函数的解偏向于清晰图像而不是模糊图像; 2)由于降采样降低了图像的模糊程度, 从降采样模糊图像中找到的相似块比模糊图像中找到的相似块, 与清晰图像具有更强的相似性, 所以利用从降采样模糊图像中搜索的相似块构成相似图像块组, 通过对相似图像块组的低秩约束迫使重建图像更加接近清晰图像. 此外, 低秩结构更好地表示了数据的全局结构, 提高了对噪声的鲁棒性.尽管图像跨尺度自相似性广泛存在, 然而, 并不是所有的图像块都能为图像复原提供有效的附加信息. 显著边缘的图像块对模糊核的估计起着关键的作用, 而灰度平坦的图像块对模糊核估计几乎不起作用, 例如若某一图像区域的像素值为常数, 则该区域经过模糊后的像素值仍为同一常数, 在该区域清晰图像与模糊图像完全相同, 因此这一区域并不能为模糊核的估计提供有效的信息. 本文将灰度值变化较小的图像块称为平坦块, 灰度值变化较大的图像块称为细节块, 在跨尺度低秩先验模型中, 仅将细节块用于模糊核的估计. 本文考虑了两种筛选图像中细节块的方案: 1)计算图像块的方差, 方差较大的图像块说明图像块中灰度变化较为剧烈; 2)计算像素的梯度, 较大的梯度表明邻域内像素灰度变化明显, 即对应显著边缘的区域. 前者需要对图像中的每一个图像块计算方差, 计算量大; 后者可以利用模板卷积的边缘检测实现, 速度快, 且通常图像块的尺寸很小, 图像块的灰度变化基本上等效于邻域内的灰度变化. 因此, 本文利用图像边缘检测确定细节块.
由于相似图像块经常出现在邻近区域, 因而在降采样图像中一定尺寸的搜索窗口内通过图像块匹配搜索相似图像块. 图像块相似性的判据有多种度量准则, 如欧氏距离、相关系数等, 本文采用欧氏距离作为图像块相似性的度量依据. 对于不同程度的细节块, 所搜索相似图像块的个数不同, 即对于不同细节块, 其相似图像块组矩阵的列数不同. 本文采用一种自适应方法[26]确定图像块相似性判断的阈值, 对原始图像
${\boldsymbol{x}}$ 进行插值移位, 生成具有$1/2$ 亚像素位移的图像$\tilde{ {\boldsymbol{x}} }$ , 对于每一个输入图像块${\boldsymbol{Q}}_j{\boldsymbol{x}}$ , 在$\tilde{ {\boldsymbol{x}} }$ 中找到对应位置的图像块${\boldsymbol{Q}}_j \tilde{{\boldsymbol{x}} }$ , 阈值$\delta_d$ 的计算式为$$\delta_d = \gamma \Vert {\boldsymbol{Q}}_j{\boldsymbol{x}} - {\boldsymbol{Q}}_j \tilde{{\boldsymbol{x}} } \Vert _2$$ (8) 其中,
$\gamma$ 为控制系数. 选取欧氏距离小于$\delta_d$ 的图像块作为原图像块的相似块. 由式(8)可知, 图像块灰度变化越剧烈, 阈值$\delta_d$ 越大; 反之, 图像块灰度变化越平缓, 阈值$\delta_d$ 则越小. 与此同时, 设置相似块搜索个数的下限$\Delta_l$ 和上限$\Delta_h$ , 即相似块个数满足$\Delta_l \le m \le \Delta_h$ . 如果搜索到的相似块个数小于$\Delta_l$ , 则不采用此图像块; 如果搜索到的相似块个数大于$\Delta_h$ , 那么仅选取前$\Delta_h$ 个相似图像块.2. 基于跨尺度低秩约束的盲解卷积算法
在上一节提出的跨尺度低秩先验模型的基础上, 本节给出了本文图像盲解卷积算法的数学模型及求解过程.
2.1 图像盲解卷积算法数学模型
本文结合跨尺度自相似性与低秩矩阵估计, 将式(7)中的图像跨尺度低秩先验作为正则化约束, 提出的单幅图像盲解卷积算法可表示为如下约束最优化问题:
$$ \begin{split} &\min\limits_{{\boldsymbol{x}},{\boldsymbol{h}}}\,\Bigg\{ \Vert \nabla {\boldsymbol{y}}-{\boldsymbol{h}}\ast \nabla {\boldsymbol{x}}\Vert^{2}_{2}+ \lambda_{s} \frac{N}{|{\boldsymbol{M}}|} \sum_{j \in {\boldsymbol{M}} } \Vert {\boldsymbol{P}}_{j}-{\boldsymbol{L}}_{j} \Vert^{2}_{ {\rm{F}}} \;+\\ &\qquad\lambda_{g} \Vert \nabla {\boldsymbol{x}} \Vert ^{2}_{2}+\lambda_{h} \Vert {\boldsymbol{h}} \Vert ^{2}_{2}\Bigg\} \\ &{\rm{s.t.}}\,\;\;{\rm{rank}} ({\boldsymbol{L}}_{j})\le t \\[-10pt]\end{split}$$ (9) 其中,
${\boldsymbol{y}}$ 为模糊图像,${\boldsymbol{x}}$ 为清晰图像,${\boldsymbol{h}}$ 为模糊核,$\nabla = \{ {\partial _x},{\partial _y}\}$ 为图像的梯度算子,${\partial _x} $ 和${\partial _y} $ 分别表示x方向和y方向的一阶差分算子,$\ast$ 表示卷积操作,${\left\| \cdot \right\|}_2$ 表示$\ell_2$ 范数,${\boldsymbol{M}}$ 为二值标记矩阵, 用于标记细节块的位置,$|{\boldsymbol{M}}|$ 为${\boldsymbol{M}}$ 中非零元素的个数,$\lambda_{g}$ ,$\lambda_{s}$ ,$\lambda_{h}$ 为正则化参数. 式(9)中第1项为数据保真项, 保证复原结果符合图像的降质模型; 第2项为跨尺度低秩约束正则项, 迫使重建图像的边缘接近清晰图像的边缘,${j \in {\boldsymbol{M}} }$ 表示将跨尺度低秩先验仅限制在标记矩阵${\boldsymbol{M}}$ 中值为1的细节块; 第3项为梯度约束项, 采用$\ell_2$ 范数对图像梯度进行约束, 能够减小基于图像块先验引入的边缘“棱角”效应, 保持图像边缘的平滑性; 第4项为模糊核的正则化约束项, 保证了模糊核的稀疏性.2.2 数学模型求解
由于式(9)是非凸的, 没有闭合解, 本文采取交替迭代求解的方法对式(9)所示的最优化问题进行求解, 即先固定对清晰图像的估计
$\hat{{\boldsymbol{x}}}_{k},$ 求解模糊核$\hat{{\boldsymbol{h}}}_{k+1},$ 再固定模糊核$\hat{{\boldsymbol{h}}}_{k+1}$ 更新对清晰图像的估计$\hat{{\boldsymbol{x}}}_{k+1}.$ 每一次迭代, 更新标记矩阵${\boldsymbol{M}},$ 通过对图像块进行筛选, 从而排除平坦块对模糊核估计的干扰.1)筛选图像块
对清晰图像的当前估计结果
$\hat{{\boldsymbol{x}}}_{k}$ 进行边缘估计, 边缘像素对应的图像块即为细节块, 参与模糊核的估计. 引入二值标记矩阵${\boldsymbol{M}}$ , 若${\boldsymbol{M}}$ 中对应的图像块为细节块, 则该位置的元素值为1, 否则该位置的元素值为0. 本文利用Sun等[27]的边缘检测算法确定当前图像估计中的边缘像素, 该算法对于每一个像素, 利用方向算子选取8个方向模板中的最大响应幅度作为该像素的边缘强度.由于本文仅将跨尺度低秩正则化约束限制在图像的细节块, 导致当前估计的图像
$\hat{{\boldsymbol{x}}}_{k}$ 中平坦块受到的约束较少, 从而可能导致复原图像的平滑区域含有较多的噪声, 为了减小噪声对边缘估计造成的干扰, 本文首先对当前估计的图像$\hat{{\boldsymbol{x}}}_{k}$ 进行高斯滤波, 然后对滤波后的图像进行边缘估计.2)估计模糊核
对模糊核进行更新, 即固定
$\hat{{\boldsymbol{x}}}_{k}$ , 更新$\hat{{\boldsymbol{h}}}_{k+1}$ , 此时目标函数简化为$$\hat{{\boldsymbol{h}}}_{k+1} = \arg\min\limits_{{\boldsymbol{h}}}\{ \Vert \nabla {\boldsymbol{y}} - {\boldsymbol{h}} \ast (\nabla \hat{{\boldsymbol{x}}}_{k} \odot {\boldsymbol{M}} ) \Vert_{2}^{2} + \lambda_{h} \Vert {\boldsymbol{h}} \Vert^{2}_{2}\}$$ (10) 式中,
$\odot$ 为哈达玛积 (Hadamard product). 在估计模糊核时, 仅利用图像中的细节块, 避免了平坦块对模糊核估计的影响, 有利于准确地估计模糊核. 式(10) 为关于${\boldsymbol{h}}$ 的二次函数, 因此存在闭合解, 令式(10)对${\boldsymbol{h}}$ 的导数为零, 可得$$ \begin{split} &\Bigl[(\partial_x\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})\circ(\partial_x\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})+(\partial_y\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}}) \circ\\ &\quad(\partial_x\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}}) + \lambda_{h}\Bigl]\ast\hat{{\boldsymbol{h}}}_{k+1} \ = (\partial_x\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})\circ\\ &\quad\partial_x {\boldsymbol{y}}+(\partial_y\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}}) \circ\partial_y {\boldsymbol{y}} \end{split}$$ (11) 其中,
$\circ$ 表示相关运算. 根据卷积定理可知, 空域中图像的卷积等效于频域中傅里叶变换的乘积, 本文将式(11)转换到频域求解:$$ \begin{split} &\Bigl[\overline{{\cal{F}}(\partial_x\hat{{\boldsymbol{x}}}_k\odot {{\boldsymbol{M}}})} \odot{\cal{F}} (\partial_x\hat{{\boldsymbol{x}}}_k\odot {{\boldsymbol{M}}}) \;+\\ &\qquad\overline{{\cal{F}}(\partial_y\hat{{\boldsymbol{x}}}_k\odot {{\boldsymbol{M}}})}\odot{\cal{F}} (\partial_x\hat{{\boldsymbol{x}}}_k \odot {{\boldsymbol{M}}}) + \lambda_{h}\Bigl]\odot\\ &\qquad{\cal{F}}(\hat{{\boldsymbol{h}}}_{k+1}) = \overline{{\cal{F}}(\partial_x\hat{{\boldsymbol{x}}}_k\odot {{\boldsymbol{M}}})} \odot{\cal{F}}( \partial_x {\boldsymbol{y}})\;+\\ &\qquad\overline{{\cal{F}}(\partial_y\hat{{\boldsymbol{x}}}_k\odot {{\boldsymbol{M}}})}\odot{\cal{F}}( \partial_y {\boldsymbol{y}}) \end{split}$$ (12) 由式(12)可得
${\boldsymbol{h}}$ 的闭合解如式(13)所示$$\hat{{\boldsymbol{h}}}_{k+1} = {\cal{F}}^{-1}\left(\frac{\overline{{\cal{F}}(\partial_x\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})}{\cal{F}}(\partial_x{\boldsymbol{y}}) + \overline{{\cal{F}}(\partial_y\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})} {\cal{F}}(\partial_y{\boldsymbol{y}})}{ \overline{{\cal{F}}( \partial_x\hat{{\boldsymbol{x}}}_k \odot {\boldsymbol{M}})} {\cal{F}}( \partial_x\hat{{\boldsymbol{x}}}_k \odot {\boldsymbol{M}}) + \overline{{\cal{F}}(\partial_y\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})} {\cal{F}}(\partial_y\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}}) + \lambda_h}\right)$$ (13) 式中,
${\cal{F}}(\cdot)$ 表示傅里叶变换,${\cal{F}}^{-1}(\cdot)$ 表示傅里叶逆变换,$\overline{{\cal{F}}(\cdot)}$ 表示傅里叶变化的复共轭.3)估计清晰图像
在上一次迭代估计的基础上, 对清晰图像进行更新, 即固定
$\hat{{\boldsymbol{h}}}_{k+1},$ 给定$\hat{{\boldsymbol{x}}}_{k},$ 更新$\hat{{\boldsymbol{x}}}_{k+1},$ 式(9)所示的目标函数简化为$$ \begin{split} \hat{{\boldsymbol{x}}}_{k+1} =& \arg\min\limits_{{\boldsymbol{x}}} \Vert \nabla {\boldsymbol{y}} - \hat{{\boldsymbol{h}}}_{k+1} \ast \nabla {\boldsymbol{x}} \Vert ^{2}_{2}\;+ \\ &\lambda_{s} \frac{N}{|{\boldsymbol{M}}|} \sum_{j \in {\boldsymbol{M}} } \Vert {\boldsymbol{P}}_{j}-{\boldsymbol{L}}_{j} \Vert^{2}_{ {\rm{F}}}+\lambda_{g}\Vert \nabla {\boldsymbol{x}} \Vert ^{2}_{2} \end{split}$$ (14) 由于
${\boldsymbol{P}}_{j}$ 的低秩结构${\boldsymbol{L}}_{j}$ 的估计依赖于方程的解$\hat{{\boldsymbol{x}}}_{k+1},$ 因而无法得到闭合解. 本文利用上一次对清晰图像的估计$\hat{{\boldsymbol{x}}}_{k}$ 近似$\hat{{\boldsymbol{x}}}_{k+1}$ 进行求解, 并用核范数对秩函数进行松弛来约束${\boldsymbol{L}}_{j}$ 的低秩性, 将式(7)写为拉格朗日的形式为$$ \hat{{\boldsymbol{L}}}_{j} = \arg\min\limits_{{\boldsymbol{L}}_{j}} \Vert {\boldsymbol{P}}_{j}-{\boldsymbol{L}}_{j} \Vert^{2}_{ {\rm{F}}} +\beta \Vert {\boldsymbol{L}}_{j} \Vert ^{}_{*} $$ (15) 式中,
${\left\| \cdot \right\|}_*$ 为核范数,$\beta$ 为平衡数据保真项与低秩项的参数. 本文利用奇异值软阈值算法(Singular value thresholding, SVT)[28]对式(15)求解, 首先对组矩阵${\boldsymbol{P}}_{j}$ 进行奇异值分解$${\boldsymbol{P}}_{j} = {\boldsymbol{U}}_{j}{\boldsymbol{\Sigma}}_{j}{\boldsymbol{V}}_{j}^{\rm{T}}$$ (16) 其中,
${\boldsymbol{U}}_{j}$ 和${\boldsymbol{V}}_{j}$ 为标准正交矩阵,${\boldsymbol{\Sigma}}_{j} = {{\rm{diag}}} \{\sigma_{j,1},\cdots,$ $\sigma_{j,r}\}$ 为奇异值对角矩阵,$\sigma_{j,i},i = 1,\cdots,r$ 为矩阵${\boldsymbol{P}}_{j}$ 的奇异值,$r = \min(m,n),m$ 和$n$ 表示组矩阵${\boldsymbol{P}}_{j}$ 的列数和行数. 利用奇异值软阈值算法求解组矩阵${\boldsymbol{P}}_{j}$ 的低秩结构${\boldsymbol{L}}_{j}$ , 其闭合解为$$ \hat{{\boldsymbol{L}}}_{j} = {\boldsymbol{U}}_{j} {\cal{S}}_{ \beta }({\boldsymbol{\Sigma}}_{j}) {\boldsymbol{V}}^{\rm{T}}_{j} $$ (17) 其中,
${\cal{S}}_{ \beta }({\boldsymbol{\Sigma}}_{j})$ 是以$\beta \ge 0$ 为参数的软阈值算子, 定义为$${{\cal{S}}_{ \beta }( {{\boldsymbol{\Sigma}}} _j) = {{\rm{soft}}}( {{\boldsymbol{\Sigma}}} _{j} , \beta ) = \max({{\boldsymbol{\Sigma}}} _{j} - \beta , 0) }$$ (18) $\hat{{\boldsymbol{L}}}_{j}$ 中的第1列为图像块${\boldsymbol{Q}}_j {\boldsymbol{x}}$ 的重建结果${\boldsymbol{Q}}_j \hat {{\boldsymbol{x}}}_k.$ 通过对所有细节块的重建图像块${\boldsymbol{Q}}_j \hat {{\boldsymbol{x}}}_k$ 进行求和处理可得低秩约束的重建图像, 即$${\boldsymbol{z}}_k = \sum\limits_{ j \in {\boldsymbol{M}} }{\boldsymbol{Q}}_{j}^{ {\rm{T}}}{\boldsymbol{Q}}_j \hat {{\boldsymbol{x}}}_k$$ (19) 式中,
${\boldsymbol{Q}}_{j}^{ {\rm{T}}}$ 表示将重建图像块${\boldsymbol{Q}}_j \hat {{\boldsymbol{x}}}_k$ 根据抽取的位置放回图像中对应位置, 从而获得重建图像${\boldsymbol{z}}_k.$ 一方面, 清晰图像的跨尺度自相似性强于模糊图像的跨尺度自相似性, 通过跨尺度自相似性组成相似图像块组, 使得目标函数的解偏向清晰图像; 另一方面, 由于降采样模糊图像中图像块的边缘更加清晰, 与清晰图像具有更强的相似性, 通过约束相似图像块组的矩阵秩, 迫使当前图像估计的边缘更接近清晰图像的边缘.将式(14)转换为矩阵向量乘积的形式,
${\boldsymbol{P}}_{j}$ 为相似图像块组, 其中第1列为图像块${\boldsymbol{Q}}_j {\boldsymbol{x}},$ 为了在表达式中建立与图像${\boldsymbol{x}}$ 之间的关系, 将式(14)中$\Vert{\boldsymbol{P}}_{j} - {\boldsymbol{L}}_{j}\Vert_{ {\rm{F}}}^{2}$ 写为$\Vert {\boldsymbol{Q}}_{j} {\boldsymbol{x}} - {\boldsymbol{Q}}_{j}\hat{{\boldsymbol{x}}}_{k} \Vert_{2}^{2}$ 的形式, 可表示为$$ \begin{split} \hat{{\boldsymbol{x}}}_{k+1} =\;& \arg\min\limits_{{\boldsymbol{x}}} \Vert {\boldsymbol{\nabla}}_{x}{\boldsymbol{y}} - {\boldsymbol{H}}_{k+1}{\boldsymbol{\nabla}}_{x}{\boldsymbol{x}}\Vert_{2}^{2} \;+ \\ &\Vert{\boldsymbol{\nabla}}_{y}{\boldsymbol{y}} - {\boldsymbol{H}}_{k+1}{\boldsymbol{\nabla}}_{y}{\boldsymbol{x}} \Vert_{2}^{2}\;+ \\ &\lambda_{s} \frac{N}{|{\boldsymbol{M}}|} \sum_{j \in {\boldsymbol{M}} } \Vert {\boldsymbol{Q}}_{j} {\boldsymbol{x}} - {\boldsymbol{Q}}_{j}\hat{{\boldsymbol{x}}}_{k} \Vert_{2}^{2} \;+ \\ &\lambda_{g}\left( \Vert{\boldsymbol{\nabla}}_{x} {\boldsymbol{x}} \Vert_{2}^{2} + \Vert {\boldsymbol{\nabla}}_{y}{\boldsymbol{x}} \Vert_{2}^{2}\right) \end{split}$$ (20) 式中,
${\boldsymbol{\nabla}}_{x},{\boldsymbol{\nabla}}_{y} \in {\bf{R}}^{N\times N}$ 分别为梯度算子$\partial_x$ 和$\partial_y$ 的矩阵表示形式, 令上式对${\boldsymbol{x}}$ 的导数为0, 可得如下方程$$ \begin{split} &\left[({\boldsymbol{H}}_{k+1}^{ {\rm{T}}}{\boldsymbol{H}}_{k+1}+\lambda_{g}){\boldsymbol{G}} + \lambda_{s}\frac{N}{|{\boldsymbol{M}}|} \sum_{j\in{\boldsymbol{M}}}{\boldsymbol{Q}}_{j}^{ {\rm{T}}}{\boldsymbol{Q}}_{j}\right ]\hat{{\boldsymbol{x}}}_{k+1} =\\ &\qquad {\boldsymbol{H}}_{k+1}^{ {\rm{T}}}{\boldsymbol{G}}{\boldsymbol{y}} + \lambda_{s} \frac{N}{|{\boldsymbol{M}}|} {\boldsymbol{z}}_k \\[-15pt] \end{split} $$ (21) 其中,
${\boldsymbol{G}} = {\boldsymbol{\nabla}}_{x}^{\rm{T}}{\boldsymbol{\nabla}}_{x}+{\boldsymbol{\nabla}}_{y}^{\rm{T}}{\boldsymbol{\nabla}}_{y},{\boldsymbol{z}}_k = \sum_{ j \in {\boldsymbol{M}} }{\boldsymbol{Q}}_{j}^{ {\rm{T}}}{\boldsymbol{Q}}_j \hat {{\boldsymbol{x}}}_k.$ 由于${\boldsymbol{M}}$ 的作用, 无法直接在频域中计算闭合解, 而大规模矩阵向量的乘积在频域中计算, 将式(21)写为如下形式$$ \begin{split} &\biggl\{{\cal{F}}^{-1}\Bigl[\left(\overline{{\cal{F}}({\boldsymbol{h}}_{k+1})}\odot {\cal{F}} ({\boldsymbol{h}}_{k+1}) +\lambda_{g}\right)\odot{\boldsymbol{F}}_g\Bigl]+ \\ &\quad\lambda_{s}\frac{N}{|{\boldsymbol{M}}|} \sum\limits_{j\in{\boldsymbol{M}}}{\boldsymbol{Q}}_{j}^{\rm{T}}{\boldsymbol{Q}}_{j}\}\hat{{\boldsymbol{x}}}_{k+1}= \\ &\quad{\cal{F}}^{-1}\Bigl[\overline{{\cal{F}}({\boldsymbol{h}}_{k+1})}\odot{\boldsymbol{F}}_{g}\odot{\cal{F}}({\boldsymbol{y}})\Bigl] +\lambda_{s}\frac{N}{|{\boldsymbol{M}}|} {\boldsymbol{z}}_k \\[-15pt] \end{split}$$ (22) 其中,
${\boldsymbol{F}}_{g} = \overline{{\cal{F}}(\partial_{x})}\odot{\cal{F}}(\partial_{x})+\overline{{\cal{F}}(\partial_{y})}\odot{\cal{F}}(\partial_{y})$ . 由于式(22)中线性方程组的系数矩阵是非对称的, 本文采取双共轭梯度法(Bi-conjugate gradient, BICG)来求解式(22), 获得$\hat{{\boldsymbol{x}}}_{k+1}$ .2.3 本文算法整体流程
本文算法的整体流程包括模糊核估计和清晰图像估计两个阶段, 如图5所示. 第1阶段中通过对式(9)的交替求解来对模糊核进行估计. 首先初始化清晰图像, 对当前估计的清晰图像进行细节块筛选构造标记矩阵, 在标记矩阵的指导下更新模糊核, 然后通过跨尺度低秩约束正则项重建图像, 重建图像可视为下一次迭代更新估计清晰图像
$\hat{{\boldsymbol{x}}}_{k+1}$ 的参考图像. 通过对相似图像块组进行整体的低秩约束, 迫使重建图像的边缘更加清晰, 用模糊程度更小的重建图像作为参考图像, 可使下一次迭代得到更清晰的图像. 通过式(9)交替求解出的清晰图像仅是清晰图像的中间结果, 进一步利用非盲解卷积方法最终可得对清晰图像的估计. 第2阶段在第1阶段估计的模糊核$\hat{{\boldsymbol{h}}}$ 的基础上, 选择合适的非盲卷积方法从模糊图像中恢复出清晰图像, 例如Richardson-Lucy算法及其变形[29-32]、EPLL (Expected patch log likelihood)算法[33]、全变分正则化方法[4, 34]、稀疏非盲解卷积方法[8]和双边滤波残差消除法[13]等.为了加速算法的收敛和处理大尺寸模糊, 与目前大部分算法相同, 本文通过构建图像金字塔模型由粗到细地估计模糊核. 在金字塔的每一层求解式(9)所示的目标函数, 在跨尺度相似图像块搜索的实际实现时, 直接在上一层估计的清晰图像中搜索相似图像块构造相似图像块组. 本文将当前层对清晰图像估计的插值图像作为下一层金字塔估计的初始清晰图像, 则下一层金字塔中对清晰图像的初始估计更接近真实的清晰图像, 从而加快了模糊核的估计过程并且提高了估计结果的准确性.
算法1总结了基于跨尺度低秩约束的图像盲解卷积算法的伪代码, 根据输入的模糊图像
${\boldsymbol{y}},$ 构建$K$ 层的图像金字塔, 若当前层为金字塔的第1层$(l = 1),$ 则将模糊图像${\boldsymbol{y}}$ 作为清晰图像初始估计$\hat{{\boldsymbol{x}}}_0,$ 设置$\hat{{\boldsymbol{x}}}_0 = {\boldsymbol{y}},$ 否则将上一层$(l - 1)$ 金字塔估计的清晰图像的插值结果作为当前层$(l)$ 清晰图像的初始估计$\hat{{\boldsymbol{x}}}_0.$ 在每一层$(l)$ 中, 利用交替迭代求解式(9)估计出模糊核$\hat{{\boldsymbol{h}}}_{k}^{(l)}$ 和清晰图像$\hat{{\boldsymbol{x}}}_{k}^{(l)},$ 这里上标表示图像金字塔的层数, 下标表示在每一层金字塔上迭代的次数, 直到迭代收敛或者达到预设的最大迭代次数.算法1的时间复杂度主要由内循环的4个步骤决定. 步骤1中采用边缘检测筛选细节块, 这种方法通过空域卷积实现, 空域卷积的时间复杂度为
${\rm{O}}(Ns),$ 其中,$N$ 为图像的尺寸,$s$ 为卷积核的尺寸. 空域滤波的卷积核通常很小, 因此, 卷积操作的时间复杂度可近似记为${\rm{O}}(N).$ 步骤2直接在频域中计算模糊核的闭合解, 其中, 傅里叶变换的时间复杂度为${\rm{O}}(N \log N),$ 逐元素操作的时间复杂度为${\rm{O}}(N),$ 因此, 步骤2的时间复杂度可以记为${\rm{O}}(N \log N).$ 步骤3中, 对于所有细节块在搜索窗口内计算图像中块匹配误差的时间复杂度为${\rm{O}}(N_t w n);$ 查找搜索窗口内$m$ 个最相似图像块的时间复杂度为${\rm{O}}(N_t w \log w);$ 完全奇异值分解的时间复杂度为${\rm{O}}(N_t \times {{\rm{min}}}(m n^2,$ $m^2 n)), $ 其中,$N_t$ 为标记矩阵${\boldsymbol{M}}$ 中对应的细节块数目②,$w$ 为搜索窗口的尺寸,$n$ 为图像块的尺寸,$m$ 为选取的相似图像块数目. 由于奇异值分解的运行时间远小于块匹配误差计算和排序两部分的运行时间之和, 因此, 步骤3的时间复杂度可以记为${\rm{O}}(N_tw( n + \log w) ).$ 步骤4中BICG算法的时间复杂度为${\rm{O}}(\zeta+ N)$ [35], 加上傅里叶变换的运行时间, 总的时间复杂度可记为${\rm{O}}(\zeta+ N\log N),$ 其中,$\zeta$ 为系数矩阵的非零项个数.算法1. 基于跨尺度低秩约束的图像盲解卷积算法
输入. 模糊图像
${\boldsymbol{y}}$ 输出. 模糊核估计
$\hat{{\boldsymbol{h}}}$ , 清晰图像估计$\hat{{\boldsymbol{x}}} $ 初始化. 设置降采样因子
$a $ ; 清晰图像的初始估计$\hat{{\boldsymbol{x}}}_{0}$ ;正则化参数
$\lambda_{g} $ ,$\lambda_{s} $ ,$\lambda_{h} $ ; 模糊核的尺寸$s$ ; 图像块大小${n} ;$ 搜索窗口的尺寸$w;$ 最大循环迭代次数.构建
$K $ 层图像金字塔for
$ l = 1$ to$K$ do初始化
$k=0 $ repeat
1) 估计图像的标记矩阵
${\boldsymbol{M}}_k^{(l)}$ 2) 根据式(13)估计模糊核
$\hat{{\boldsymbol{h}}}_{k+1}^{(l)}$ 3) 根据式(19)估计低秩约束的重建图像
${\boldsymbol{z}}_k^{(l)} $ 4) 利用BICG算法求解式(22), 得到
$\hat{{\boldsymbol{x}}}_{k+1}^{(l)} $ $k=k+1$ until迭代收敛或者达到预设的最大迭代次数
将清晰图像估计的中间结果
$\hat{{\boldsymbol{x}}}_{k}^{(l)}$ 上采样, 作为下一层金 字塔的初始估计$\hat{{\boldsymbol{x}}}_{0}^{(l+1)}$ .end for
从上述时间复杂度的分析可以看出, 步骤1和2的时间复杂度均不超过
${\rm{O}}(N \log N)$ , 步骤4中系数矩阵是稀疏的, 时间复杂度可近似为线性对数阶, 而步骤3为立方阶时间复杂度. 于是, 本文的算法如同一般使用相似图像块搜索的算法, 例如经典的BM3D算法[36], 主要耗时在相似图像块的遍历搜索上. 目前快速相似图像块搜索算法的研究不多, 未来快速算法的普遍研究将会为以相似图像块搜索为基础的算法提供速度上升的空间.3. 实验结果与分析
本文设置图像块尺寸为
$n = 5\times 5,$ 奇异值阈值$\beta$ 为0.2, 相似图像块个数的上限$\Delta_h$ 为19, 下限$\Delta_l$ 为5, 搜索窗口的尺寸为$w = 25 \times 25.$ 由于大多数真实图像的模糊核尺寸小于$51\times 51,$ 参照Sun等[27]和Michaeli等[10]的方式, 若无特殊说明, 本文设置模糊核的尺寸为$s = 51\times 51.$ 降采样因子$a$ 越大, 降采样模糊图像中的图像块越清晰, 但同时不同尺度图像之间的相似图像块的个数越少[26], 因此需要综合考虑设置降采样因子的取值, 本文参照Michaeli等[10]将金字塔之间的缩放因子设置为$4/3,$ 图像金字塔不同层对应的模糊核尺寸不同, 在构建金字塔模型时, 若当前层对应的模糊核尺寸小于$3\times 3,$ 则停止降采样的过程.3.1 Kohler数据集上的实验
本文在Kohler等[37]公开的数据集上验证算法的有效性, 此数据集包括4幅图像, 有12种模糊核(后5个为大尺寸模糊核), 共产生48幅模糊图像. 该数据集是由相机记录的六维自由度运动轨迹合成的非均匀模糊数据集. 在Kohler数据集实验中, 将本文的算法与Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]提出的算法进行比较, 本文算法的正则化参数设置为
$\lambda_s = 0.0008$ ,$\lambda_g = 0.002$ ,$\lambda_h= 0.0003N.$ 该数据集中的模糊图像是由真实记录的三维空间运动轨迹而合成的, 属于非均匀模糊, 上述算法均利用线性卷积模型对非均匀模糊进行近似建模. 为了公平比较, 本文的算法也根据模糊程度的不同, 将初始模糊核尺寸设置为$21\times21$ 到$151\times151$ 不等. Pan等[13]、Yan等[14]、常振春等[15]和Chen等[16]的结果均是由作者本人提供. 通过比较每一幅图像的去模糊结果与沿着相机运动轨迹捕获的199 个未模糊图像的峰值信噪比(Peak signal-to-noise ratio, PSNR), 将最大的PSNR作为定量评估的指标. 复原图像与真值图像之间的PSNR越大, 表明复原图像与真值图像越接近.图6比较了各个算法在Kohler数据集上PSNR的均值及标准差. 从图中可以看出, 本文的算法在四幅图像上的平均PSNR均高于常振春等[15]的去模糊结果; 在后两幅图像上的平均PSNR高于Pan等[13]的结果, 在第四幅图像上的平均PSNR高于Yan等[14]和Chen等[16]的结果. 该数据集中的前3幅图像含有足够多的暗像素, 符合Pan等[13]所提出的暗通道先验, 本文的算法在Kohler数据集上达到了与Pan等[13]方法相当的结果. 该方法对于缺乏暗像素的情况会失效, Yan等[14]提出了亮通道先验, 并结合暗通道先验共同建模图像先验, 提高了PSNR. 尽管Yan等[14]和Chen等[16]方法在Kohler数据集上获得了更高的PSNR, 然而他们的方法恢复细节的能力仍有限. 由于该数据集是对印刷照片进行成像, 图像较为平滑, 并不能很好地用于评价算法对细节的恢复能力. 此外, 从图中的垂直误差条可见, 本文算法在各幅图像上均取得最小的标准差, 说明本文算法具有更好的鲁棒性.
图7和图8给出各个算法在Kohler数据集中两幅图像上的复原结果, 图像中左上角为各算法估计出的模糊核. 对于图7(a)所示的小模糊图像, 图7(b) ~ 7(f)分别为Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]以及本文算法的去模糊结果, 图像的下方为局部区域的细节放大图. 图7(b) ~ 7(f)与真值图像之间的PSNR依次为
$29.31$ ,$29.74$ ,$28.95$ ,$29.54$ 和$31.53$ . 从细节放大图中可以看出, 常振春等[15]的复原结果中产生了一定程度的噪声, Pan等[13]、Yan等[14]和Chen等[16]的方法在某些区域缺乏对细节的恢复, 本文的算法能够更好地恢复图像的细节. 大尺寸模糊核更难估计, 对于图8(a)所示的大模糊图像, 图8(b) ~ 8(f)分别为Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]以及本文算法的去模糊结果, 它们与真值图像的PSNR依次为22.30, 22.32, 22.94, 22.37和27.51. 根据去模糊图像和真值图像之间的PSNR, 本文算法在这两幅图像上估计出更准确的模糊核, 复原图像更接近真值图像; 根据视觉效果, 本文算法能够恢复出更多的细节且失真更小.3.2 加噪Kohler数据集上的实验
本文的算法没有对噪声进行特殊处理, 利用低秩模型对跨尺度相似图像块组进行整体约束, 使得算法具有一定的抗噪能力. 本文在Kohler数据集中加入了标准差为0.01的高斯噪声模拟模糊有噪图像. 在加噪Kohler数据集实验中, 将本文的算法与Pan等[13]、Yan等[14]、常振春等[15]和Chen等[16]的算法进行比较, 本文的算法将正则化参数设置为
$\lambda_s = 0.0008$ ,$\lambda_g = 0.002$ ,$\lambda_h = 0.0003N.$ Pan等[13]、Yan等[14]、常振春等[15]和Chen等[16]的结果均由作者提供的程序运行得到. 图9给出了各算法在加噪Kohler数据集上PSNR的均值及标准差, 由图中可见, 与Pan等[13]、Yan等[14]、常振春等[15]和Chen等[16]算法相比, 本文算法在各幅图像中均取得了最高的平均PSNR及最小的标准差, 充分说明本文算法对噪声具有很好的鲁棒性.图10和图11比较了各个算法在加噪Kohler数据集中两幅图像上的复原结果. 对于图(a)所示的模糊有噪图像, 图(b) ~ (f)分别为各个算法的去模糊结果. 计算去模糊图像与真值图像之间的PSNR, 在图10中Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]以及本文算法PSNR依次为
$19.95$ ,$17.11$ ,$21.60$ , 16.38和$26.85$ , 在图11中PSNR依次为$24.72$ , 24.80, 27.51,$24.79$ 和$28.23$ . 由图10可见, 由于噪声的干扰, Pan等[13]、Yan等[14]、常振春等[15]和Chen等[16]算法都无法准确地估计出模糊核, 进而无法复原出清晰的结果, 本文算法能够准确地复原出图像的边缘和细节, 获得清晰的复原图像. 本文算法在这两幅图像上均取得了最高的PSNR均值, 表明更接近真值图像, 并且展现了更好的视觉效果.3.3 真实模糊图像实验
在真实模糊图像实验中, 将本文的算法与Michaeli等[10]、Perrone等[9]、常振春等[15]、Pan等[13]、Yan等[14]和Chen等[16]的算法进行比较, 本文算法的正则化参数设置为
$\lambda_s = 0.004$ ,$\lambda_g = 0.006$ ,$\lambda_h = $ $ 0.003N.$ Michaeli等[10]、Pan等[13]、Yan等[14]、Chen等[16]的结果均是由作者提供的程序运行得到, Perrone等[9]、常振春等[15]的复原结果由作者直接提供. 真实模糊图像一般为非均匀模糊, 上述算法均利用线性卷积模型对非均匀模糊进行近似建模.图12和图13比较了各个算法在两幅真实模糊图像上的复原结果, 对于图(a)所示真实模糊图像, 图(b) ~ (h)为各个算法的复原结果, 图像左上角为估计的模糊核, 图像下方为图像中局部区域的细节图. 从这些细节区域以及整体复原结果可以看出本文的算法在有效减少振铃效应的同时, 能够很好地恢复出图像的细节, 使边缘更加清晰.
3.4 真实模糊有噪图像实验
在真实模糊有噪图像实验中, 将本文的算法与Michaeli等[10]、Perrone等[9]、Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]的算法进行比较, 本文算法的正则化参数设置为
$\lambda_s = 0.004$ ,$\lambda_g = 0.006$ ,$\lambda_h = $ $ 0.003N.$ Michaeli等[10]、Perrone等[9]、Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]的结果均是由作者提供的程序运行得到.图14和图15比较了各个算法在两幅真实模糊有噪图像上的复原结果. 图(a)为在低光照环境中获取的真实图像, 当光线不充足时图像容易产生噪声, 图14(b) ~ 14(h)分别为Michaeli等[10]、Perrone等[9]、Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]以及本文算法的去模糊结果, 图15(b) ~ 15(f)分别为Perrone等[9]、Pan等[13]、Yan等[14]、Chen等[16]以及本文算法的去模糊结果, 在图像的左上角为各个算法估计的模糊核, 在每幅图像的下方是局部区域的细节图. 由图中可见, 本文算法很大程度上减小了振铃效应和噪声的影响, 恢复出更加清晰的结果. 特别地, 从图14的细节放大图可以看出, Perrone等[9]、Pan等[13]、Yan等[14]、常振春等[15]的复原结果均放大了噪声并且存在明显的振铃效应, Michaeli等[10]、Chen等[16]减小了振铃效应, 但复原结果仍存在噪声放大的情况. 可见, 本文算法对于噪声具有良好的鲁棒性.
4. 分析与讨论
本节对跨尺度低秩先验的有效性和局限性进行分析和讨论.
4.1 图像跨尺度自相似性的分析
本文通过在大量图像上对图像跨尺度自相似性的统计分析来验证跨尺度低秩先验的有效性. 在本实验中, 从Sun等[27]数据集提供的80幅清晰图像中抽取尺寸为
$5\times5$ 的细节块, 对于每一个细节块, 在降采样图像中搜索$m$ 个相似图像块, 降采样因子$a$ 分别设置为$4/3$ 、$5/3$ 和$2$ , 降采样图像的尺度分别为原来的0.75、0.6和0.5倍. 采用均方误差(Mean squared difference, MSD)度量图像块之间的相似性,${\rm{MSD}}$ 的数值越小, 表明图像块之间的相似性越强. 设清晰图像${\boldsymbol{x}}$ 中抽取的图像块为${\boldsymbol{Q}}_j {\boldsymbol{x}}$ , 在其降采样图像${\boldsymbol{x}}^a$ 中搜索相似图像块${\boldsymbol{R}}_i {\boldsymbol{x}}^a,i = 1,\cdots,m$ , 则清晰图像的跨尺度自相似性用均方误差度量可表示为$${{MSD}}({\boldsymbol{x}},{\boldsymbol{x}}^a) = \frac{1}{N_t}\sum\limits_j\Vert{\boldsymbol{Q}}_j{\boldsymbol{x}}-\frac{1}{m}\sum\limits_i{\boldsymbol{R}}_i{\boldsymbol{x}}^{a}\Vert_2^2$$ (23) 其中,
$N_t$ 为图像中细节块的个数,$m$ 为相似图像块的个数. 对于每一个细节块自适应地搜索$m$ 个相似图像块, 然后计算$m$ 个相似图像块的均值. 根据式(8)计算自适应阈值, 其中, 控制系数$\gamma$ 值越大, 阈值$\delta_d$ 越大, 选取该细节块的相似图像块个数越多, 这里设置相似块搜索个数的下限$\Delta_l = 1,$ 上限$\Delta_h = 5,$ 则$m$ 满足$1\le m\le 5.$ 由于各幅图像中通过边缘检测确定的细节块个数不同, 因此, 对于每幅图像利用均方误差来度量相似性. 同理,${{MSD}}({\boldsymbol{x}},{\boldsymbol{y}})$ 度量清晰图像与模糊图像的相似性,${{MSD}}({\boldsymbol{x}},{\boldsymbol{y}}^a)$ 度量清晰图像与降采样模糊图像的相似性,${{MSD}}({\boldsymbol{y}}, {\boldsymbol{y}}^a)$ 度量模糊图像的跨尺度自相似性. 对于Sun数据集中的每幅图像各自计算均方误差, 然后统计所有图像(80 幅图像)的均方误差之和.图16展示了降采样因子
$a$ 为$4/3$ 、$5/3$ 和$2$ , 控制系数$\gamma$ 为1、1.5、2和2.5时80幅图像的均方误差之和, 图中, 横坐标为控制系数$\gamma$ , 纵坐标为均方误差之和. 图16(a)比较了模糊图像${\boldsymbol{y}}$ 及其降采样图像${\boldsymbol{y}}^a$ 与清晰图像${\boldsymbol{x}}$ 的相似性, 图中实线表示清晰图像与降采样模糊图像之间的相似性, 虚线表示清晰图像与模糊图像之间的相似性, 由图中可见, 选取适合的参数可以保证${{MSD}}({\boldsymbol{x}},{\boldsymbol{y}}^a) < {{MSD}}({\boldsymbol{x}},{\boldsymbol{y}})$ , 说明降采样模糊图像相比于模糊图像本身与清晰图像具有更强的相似性. 图16(b)比较了清晰图像${\boldsymbol{x}}$ 和模糊图像${\boldsymbol{y}}$ 的跨尺度自相似性, 图中实线表示清晰图像的跨尺度自相似性, 虚线表示模糊图像的跨尺度自相似性, 由图中可见${{MSD}}({\boldsymbol{x}},{\boldsymbol{x}}^a) < {{MSD}}({\boldsymbol{y}}, {\boldsymbol{y}}^a)$ , 说明清晰图像比模糊图像具有更强的跨尺度自相似性. 根据上述的统计实验可得出结论, 本文提出的基于图像跨尺度自相似性的低秩先验模型能够使目标函数的解偏向于清晰图像而不是模糊图像, 同时, 降采样图像能够为图像复原提供附加的结构信息, 通过对跨尺度相似图像块组的低秩约束能够迫使重建图像更加接近清晰图像. 此外, 从图16中还可以看出跨尺度自相似性与图像尺度的关系, 随着降采样因子的增大, 图像的跨尺度自相似性减弱, 因此, 本文的算法参照Michaeli等[10]将降采样因子$a$ 设置为$4/3$ .4.2 跨尺度低秩先验的局限性分析
本文提出的跨尺度低秩先验依赖于跨尺度相似图像块的冗余性. 自然图像中跨尺度相似图像块越多, 它们之间的相关性能够提供更充分的附加信息, 则该先验的鲁棒性越强. 对于自相似性较弱的图像, 由于仅能搜索少量的相似图像块, 其复原能力受到了一定的限制.
图17展示了本文的算法在Sun等[27]数据集中三幅自相似性较弱图像上的复原结果, 图17(a)为模糊图像, 图17(b)为真值图像, 图17(c)为Cho等[3]、Xu等[4]和Levin等[6]算法的复原结果, 图17(d)为本文算法的复原结果, 图像左上角为估计的模糊核. 通过观察模糊核以及复原结果可以看出, 本文的算法并没有准确地估计出模糊核, 导致无法完全去除图像中的模糊或产生halo效应. 但是, 跨尺度低秩先验是一种鲁棒的先验模型, 对于不同的模糊核或图像内容, 本文的算法能够获得较为稳定的复原结果. 当模糊核或图像内容不符合先验假设时, 部分算法的复原结果会产生较大的波动, 如图17(c)所示的失效图例产生明显的振铃效应, 而本文的算法即使对于自相似性较弱的图像, 依然能够达到一定的去模糊效果, 不会产生明显的振铃效应.
5. 结束语
由于跨尺度自相似性普遍存在于自然图像中, 本文提出了一种跨尺度低秩先验模型, 在当前估计的降采样图像中搜索相似图像块构成相似图像块组, 对相似图像块组构造低秩约束正则项, 加入到目标函数中, 使目标函数的解偏向于清晰图像. 在金字塔的逐层迭代中, 通过对跨尺度相似图像块组进行低秩约束, 迫使当前估计的清晰图像边缘越来越清晰, 细节越来越丰富. 在大量模糊图像以及模糊有噪图像上的实验验证了本文算法的有效性. 本文的算法没有对噪声进行特殊处理, 由于低秩约束很好地表示了数据的全局结构特性, 因此对噪声具有良好的鲁棒性, 能够从大模糊有噪图像中有效地估计出模糊核.
-
表 1 行人重识别主流数据集
Table 1 Mainstream Re-ID dataset
库名 发布机构 样本描述 类型 示例 VIPeR (2008) 加州大学圣克鲁兹分校 632 个行人, 1264 幅行人图像 单帧数据集 PRID2011 (2011) 格拉茨技术大学 934 个行人, 24541 帧行人图像, 视频数据集 Partial-iLIDS (2011) 伦敦玛丽女王大学 119 个行人, 238 幅行人图像 单帧遮挡数据集 iLIDS-VID (2014) 伦敦玛丽女王大学 300 个行人, 42495 帧行人图像 视频数据集 Duke MTMC-reID (2014) 杜克大学 1812 个行人, 36441 幅行人图像 单帧数据集 Partial-ReID (2015) 中山大学 60 个行人, 600 帧行人图像, 单帧遮挡数据集 Market-1501 (2015) 清华大学 1501 个行人, 33217 幅行人图像 单帧数据集 MARS (2016) 悉尼大学 1261 个行人, 1191003 帧行人图像 视频数据集 CHUK03 (2017) 香港中文大学 1467 个行人, 13164 幅行人图像 单帧数据集 MSMT17 (2018) 北京大学 4101 个行人, 126441 幅行人图像 单帧数据集 表 2 基于姿势估计的方法总结 (rank-1为原论文在Market-1501上的实验结果)
Table 2 Summary of pose estimation based methods (rank-1 refers to the result of original paper on Market-1501)
文献 来源 方法名称 基础网络或主要方法 方法类型 姿态估计 rank-1 (%) 主要工作概述 模型 关键点数目 [5] CVPR10 SDALF 颜色相关图, 颜色矩 手工特征 — — — 设计颜色直方图等手工特征提取人体对称轴附近的局部信息. [34] CVPR17 SpindleNet GoogleNet 深度学习 CPM 14 91.5 人体关键点定位人体部件ROI, 与行人特征级联融合生成鉴别性更强的特征. [35] Arxiv17 PIE ResNet50 深度学习 CPM 14 78.6 双层全连接层提取人体部件判别向量, 指导姿态估计模型精确提取关键点. [36] ICCV19 PGFA Resnet50 深度学习 AlphaPose 18 91.2 利用姿态估计模型对遮挡的敏感性预测遮挡区域, 降低遮挡对模型判别的影响. [38] CVPR18 Pose-transfer CGAN GAN HPE 18 87.6 引入姿态估计模型定位人体结构, 优化GAN模型对人体形态的构建. [39] CVPR19 PATN CGAN GAN OpenPose 18 — 采用双判别器分别改善图像质量及姿态形体, 提升生成图像的真实感. 表 3 基于特征空间分割的方法总结(rank-1为原论文在Market-1501上的实验结果)
Table 3 Summary of feature spatial partition based methods (rank-1 refers to the result of original paper on Market-1501)
文献 来源 方法名称 基础网络 损失函数 分割数目统计 rank-1 (%) 主要工作概述 全局特征 局部特征 [17] ICCV18 PCB ResNet50 交叉熵损失 0 6 93.8 提出水平分割卷积特征, 提取细粒度的局部特征. [47, 53] ACM19 MGN ResNet50 交叉熵损失
三元损失3 5 95.7 多粒度网络, 结合粗粒度的全局特征及细粒度的局部特征, 使用多损失联合训练. [49] CVPR19 Pyramidal ResNet50 交叉熵损失
三元损失1 20 95.7 构建金字塔结构, 在分割特征的同时保留特征间的上下文关系. [50] PR19 AlignedReID ResNet50 交叉熵损失
三元损失1 7 91.8 设计了一种动态规划算法, 优先匹配相似度更高的局部特征, 减少了特征对齐误差. [51] CVPR19 VPM ResNet50 交叉熵损失
三元损失0 3 93.0 预定义分割区域, 使特征分割模型更稳定的提取部件特征. [52] ICCV19 SSG ResNet50 交叉熵损失
三元损失0 3 86.2 与无监督学习结合, 将每个分割区域作为一类聚类中心, 构建目标域与原域的细粒度相关性. 表 4 基于视角信息的方法总结
Table 4 Summary of viewpoint based methods
文献 来源 基础网络或主要方法 方法名称 损失函数 方法类型 主要工作概述 [54] CVPR19 PCB PsrsonX 交叉熵损失 深度学习 提出了一个3D行人数据集, 定量探讨了视角特征对行人重识别任务的影响. [55] AVSS14 坐标仿射变换 TA + MS + W特征 — 手工特征 挖掘人体对称性特征、角度特征, 利用仿射变换对齐图像. [57] TPAMI14 角度描述符 VIH — 手工特征 多视图构建角度描述符, 预测固定摄像头下行人姿态变化情况. [59] BMVC17 GoogleNet VeSPA 交叉熵损失 深度学习 基于行人属性集的视角标注, 训练了一个分类模型, 可预测行人视角概率. [60] CVPR18 ResNet50 PSE 交叉熵损失 深度学习 将VeSPA模型用于行人重识别任务, 结合视角概率值生成鉴别特征. 表 5 基于注意力机制的方法总结(rank-1为原论文在Market-1501上的实验结果)
Table 5 Summary of attention based methods (rank-1 refers to the result of original paper on Market-1501)
文献 来源 方法名称 基础网络 实现方法 损失函数 方法类型 rank-1 (%) 主要工作概述 [61] CVPR17 DLPAR GoogleNet 多分支的$1\times1$卷积层 三元损失 空间注意力 64.2 利用多个注意力模块作用到不同的人体部件, 多分支提取鉴别性特征. [62] CVPR18 MGCAM MGCAN 全卷积网络[69] 交叉熵损失
三元损失空间注意力 83.7 结合背景分割, 提取二值化轮廓图作为注意力图, 降低杂乱背景的干扰. [65] CVPR18 HA-CNN CNN SER结构结合多层卷积 交叉熵损失 空间注意力
通道注意力91.2 融合空间注意力学习与通道注意力, 同时学习平面像素特征与通道尺度特征. [66] ICCV19 ABD-Net ResNet50 Softmax层加权特征矩阵 交叉熵损失
三元损失空间注意力
通道注意力95.6 利用 softmax 的分类特性, 加强通道特征间的相关性. [68] ICCV19 BDBNet ResNet50 DropBlock[70]层改进 交叉熵损失
三元损失非卷积方法 95.3 特征正则化, 将随机擦除作用到特征学习, 可有效抑制过拟合. 表 6 DukeMTMC-ReID数据集上各种方法的对比结果 (%)
Table 6 Experimental results of various methods on DukeMTMC-ReID dataset (%)
表 7 Market-1501数据集上各种方法的对比结果 (%)
Table 7 Experimental results of various methods on Market-1501 dataset (%)
方法 类型 rank-1 mAP XQDA + LOMO[10] (2015) 手工特征 43.8 22.2 UMDL[73] (2016) 无监督 + 手工特征 34.5 12.4 SPGAN[74] (2018) 无监督 + GAN 58.1 26.9 SOMAne[3] (2017) 全局特征 73.9 47.9 Spindle[34] (2017) 姿势提取 76.9 — Pose-transfer[38] (2018) 姿势提取 87.6 68.9 PCB[17] (2018) 特征空间分割 92.3 77.4 MGN[47] (2018) 特征空间分割 95.7 86.9 Pyramidal[49] (2019) 特征空间分割 95.7 88.2 PSE[60] (2018) 视角信息 87.7 69.0 HA-CNN[65] (2018) 注意力机制 91.2 75.7 ABD-Net[66] (2019) 注意力机制 95.6 88.2 表 8 CUHK03数据集上各种方法的对比结果 (%)
Table 8 Experimental results of various methods on CUHK dataset (%)
表 9 各类局部特征方法比较
Table 9 Comparison of various local feature methods
方法类型 对应文献 特征学习特点 影响性能的主要因素 姿势估计 [5, 29-39] 在特征学习的过程中融合准确的关键点特征, 以学习更具鉴别性的特征, 或利用关键点处理人体定位对齐、遮挡问题. 姿态估计模型对人体关键点的检测精度、特征融合方法的有效性. 姿态估计数据集与行人重识别数据集具有较大偏差, 造成姿态估计模型在行人重识别任务中的语义分割效果不佳. 特征空间分割 [15, 47-52] 对卷积层的特征进行均匀分割, 生成的每一块特征都由单独的损失函数约束训练 输入数据的复杂程度, 特征分割区域的稳定性, 易受局部特征对齐问题的影响, 依赖质量较高的数据. 视角信息 [54-60] 需要准确的视角信息. 常利用视角信息对不同视角的图像进行仿射变换以对齐图像视角, 或融合视角信息增加特征的鉴别性. 视角信息的准确性, 目前没有专门增对视角特征的研究领域且相关数据集较少, 视角估计模型的准确度还有待提升. 注意力机制 [61-68] 学习由卷积计算生成的显著性区域, 在训练过程中提高相关程度较高区域的权重, 同时降低相关程度较低区域的权重. 注意力选择的有效性及多样性, 相关的工作表明结合多类注意力机制能够获得更好鉴别性特征. 表 10 DukeMTMC-reID上融合多类局部特征方法的实验结果 (%)
Table 10 Experimental results of the multiple-local feature fusion methods on DukeMTMC-reID (%)
-
[1] Zheng Z D, Zheng L, Yang Y. Pedestrian alignment network for large-scale person re-identification. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(10): 3037-3045 doi: 10.1109/TCSVT.2018.2873599 [2] Chen H R, Wang Y W, Shi Y M, Yan K, Geng M Y, Tian Y H, et al. Deep transfer learning for person re-identification. In: Proceedings of the 4th International Conference on Multimedia Big Data (BigMM). Xi'an, China: IEEE, 2018. 1−5 [3] Barbosa I B, Cristani M, Caputo B, Rognhaugen A, Theoharis T. Looking beyond appearances: Synthetic training data for deep CNNs in re-identification. Computer Vision and Image Understanding, 2018, 167: 50-62 doi: 10.1016/j.cviu.2017.12.002 [4] Gray D, Tao H. Viewpoint invariant pedestrian recognition with an ensemble of localized features. In: Proceedings of the 10th European Conference on Computer Vision. Marseille, France: Springer, 2008. 262−275 [5] Farenzena M, Bazzani L, Perina A, Murino V, Cristani M. Person re-identification by symmetry-driven accumulation of local features. In: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010. 2360−2367 [6] Bazzani L, Cristani M, Murino V. Symmetry-driven accumulation of local features for human characterization and re-identification. Computer Vision and Image Understanding, 2013, 117(2): 130-144 doi: 10.1016/j.cviu.2012.10.008 [7] Lowe D G. Object recognition from local scale-invariant features. In: Proceedings of the 7th IEEE International Conference on Computer Vision. Kerkyra, Greece: IEEE, 1999. 1150−1157 [8] Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). San Diego, USA: IEEE, 2005. 886−893 [9] 齐美彬, 檀胜顺, 王运侠, 刘皓, 蒋建国. 基于多特征子空间与核学习的行人再识别. 自动化学报, 2016, 42(2): 229-308Qi Mei-Bin, Tan Sheng-Shun, Wang Yun-Xia, Liu Hao, Jiang Jian-Guo. Multi-feature subspace and kernel learning for person re-identification. Acta Automatica Sinica, 2016, 42(2): 229-308 [10] Liao S C, Hu Y, Zhu X Y, Li S Z. Person re-identification by local maximal occurrence representation and metric learning. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 2197−2206 [11] Köstinger M, Hirzer M, Wohlhart P, Both P M, Bischof H. Large scale metric learning from equivalence constraints. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012. 2288−2295 [12] Huang T, Russell S. Object identification in a Bayesian context. In: Proceedings of the 15th International Joint Conference on Artifical Intelligence. San Francisco, USA: Morgan Kaufmann Publishers Inc., 1997. 1276−1282 [13] Zajdel W, Zivkovic Z, Krose B J A. Keeping track of humans: Have I seen this person before? In: Proceedings of the 2005 IEEE International Conference on Robotics and Automation. Barcelona, Spain: IEEE, 2005. 2081−2086 [14] Gray D, Brennan S, Tao H. Evaluating appearance models for recognition, reacquisition, and tracking. In: Proceedings of the 10th IEEE International Workshop on Performance Evaluation of Tracking and Surveillance (PETS). Rio de Janeiro, Brazil: IEEE, 2007. 1−7 [15] Li W, Zhao R, Xiao T, Wang X G. DeepReID: Deep filter pairing neural network for person re-identification. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014. 152−159 [16] Zheng Z D, Zheng L, Yang Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 3774-3782 [17] Sun Y F, Zheng L, Yang Y, Tian Q, Wang S J. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline). In: Proceedings of the 15th European Conference on Computer Vision (ECCV 2018). Munich, Germany: Springer, 2018. 501−518 [18] Yu H X, Zheng W S, Wu A C, Guo X W, Gong S G, Lai J H. Unsupervised person re-identification by soft multilabel learning. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 2143−2152 [19] Wu A C, Zheng W S, Lai J H. Unsupervised person re-identification by camera-aware similarity consistency learning. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 6921−6930 [20] Zheng X Y, Cao J W, Shen C H, You M Y. Self-training with progressive augmentation for unsupervised cross-domain person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 8221−8230 [21] Zheng L, Shen L Y, Tian L, Wang S J, Wang J D, Tian Q. Scalable person re-identification: A benchmark. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1116−1124 [22] Ristani E, Solera F, Zou R, Cucchiara R, Tomasi C. Performance measures and a data set for multi-target, multi-camera tracking. In: Proceedings of the 2016 European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 17−35 [23] Wei L H, Zhang S L, Gao W, Tian Q. Person transfer GAN to bridge domain gap for person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 79−88 [24] Zheng L, Bie Z, Sun Y F, Wang J D, Su C, Wang S J, et al. MARS: A video benchmark for large-scale person re-identification. In: Proceedings of the 14th European Conference on Computer Vision (ECCV 2016). Amsterdam, The Netherlands: Springer, 2016. 868−884 [25] Wang T Q, Gong S G, Zhu X T, Wang S J. Person re-identification by video ranking. In: Proceedings of the 13th European Conference on Computer Vision (ECCV 2014). Zurich, Switzerland: Springer, 2014. 688−703 [26] Hirzer M, Beleznai C, Roth P M, Bischof H. Person re-identification by descriptive and discriminative classification. In: Proceedings of the 17th Scandinavian Conference on Image Analysis. Ystad, Sweden: Springer, 2011. 91−102 [27] Zheng W S, Li X, Xiang T, Liao S C, Lai J H, Gong S G. Partial person re-identification. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 4678−4686 [28] Zheng W S, Gong S G, Xiang T. Person re-identification by probabilistic relative distance comparison. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2011). Colorado Springs, USA: IEEE, 2011. 649−656 [29] Cheng D S, Cristani M, Stoppa M, Bazzani L, Murino V. Custom pictorial structures for re-identification. In: Proceedings of the 22nd British Machine Vision Conference. Dundee, UK: BMVA Press, 2011. 1−11 [30] Cho Y J, Yoon K J. Improving person re-identification via pose-aware multi-shot matching. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1354−1362 [31] Toshev A, Szegedy C. DeepPose: Human pose estimation via deep neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014. 1653−1660 [32] Xiao B, Wu H P, Wei Y C. Simple baselines for human pose estimation and tracking. In: Proceedings of the 15th European Conference on Computer Vision (ECCV 2018). Munich, Germany: Springer, 2018. 472−487 [33] Newell A, Yang K Y, Deng J. Stacked hourglass networks for human pose estimation. In: Proceedings of the 14th European Conference on Computer Vision (ECCV 2016). Amsterdam, The Netherlands: Springer, 2016. 483−499 [34] Zhao H Y, Tian M Q, Sun S Y, Shao J, Yan J J, Yi S, et al. Spindle net: Person re-identification with human body region guided feature decomposition and fusion. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 907−915 [35] Zheng L, Huang Y J, Lu H C, Yang Y. Pose-invariant embedding for deep person re-identification. IEEE Transactions on Image Processing, 2019, 28(9): 4500-4509 doi: 10.1109/TIP.2019.2910414 [36] Miao J X, Wu Y, Liu P, Ding Y H, Yang Y. Pose-guided feature alignment for occluded person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 542−551 [37] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 27th Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014. 2672−2680 [38] Liu J X, Ni B B, Yan Y C, Zhou P, Cheng S, Hu J G. Pose transferrable person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 4099−4108 [39] Zhu Z, Huang T T, Shi B G, Yu M, Wang B F, Bai X. Progressive pose attention transfer for person image generation. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 2342−2351 [40] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, et al. Going deeper with convolutions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 1−9 [41] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778 [42] Mirza M, Osindero S. Conditional generative adversarial nets. arXiv preprint arXiv: 1411.1784, 2014. [43] Wei S E, Ramakrishna V, Kanade T, Sheikh Y. Convolutional pose machines. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 4724−4732 [44] Cao Z, Simon T, Wei S E, Sheikh Y. Realtime multi-person 2D pose estimation using part affinity fields. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 1302−1310 [45] Fang H S, Xie S Q, Tai Y W, Lu C W. RMPE: Regional multi-person pose estimation. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2353−2362 [46] Cao Z, Hidalgo G, Simon T, Wei S E, Sheikh Y. OpenPose: Realtime multi-person 2D pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(1): 172-186. doi: 10.1109/TPAMI.2019.2929257 [47] Wang G S, Yuan Y F, Chen X, Li J W, Zhou X. Learning discriminative features with multiple granularities for person re-identification. In: Proceedings of the 26th ACM International Conference on Multimedia. Seoul, Korea (South): ACM, 2018. 274−282 [48] Cheng D, Gong Y H, Zhou S P, Wang J J, Zheng N N. Person re-identification by multi-channel parts-based CNN with improved triplet loss function. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1335−1344 [49] Zheng F, Deng C, Sun X, Jiang X Y, Guo X W, Yu Z Q, et al. Pyramidal person re-identification via multi-loss dynamic training. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 8506−8514 [50] Luo H, Jiang W, Zhang X, Fan X, Qian J J, Zhang C. AlignedReID++: Dynamically matching local information for person re-identification. Pattern Recognition, 2019, 94: 53−61 [51] Sun Y F, Xu Q, Li Y L, Zhang C, Li Y K, Wang S J, et al. Perceive where to focus: Learning visibility-aware part-level features for partial person re-identification. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 393−402 [52] Fu Y, Wei Y C, Wang G S, Zhou Y Q, Shi H H, Uiuc U, et al. Self-Similarity grouping: A simple unsupervised cross domain adaptation approach for person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 6111−6120 [53] Schroff F, Kalenichenko D, Philbin J. FaceNet: A unified embedding for face recognition and clustering. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 815−823 [54] Sun X X, Zheng L. Dissecting person re-identification from the viewpoint of viewpoint. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 608−617 [55] Bak S, Zaidenberg S, Boulay B, Brémond F. Improving person re-identification by viewpoint cues. In: Proceedings of the 11th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Seoul, Korea (South): IEEE, 2014. 175−180 [56] Bialkowski A, Denman S, Sridharan S, Fookes C, Lucey P. A database for person re-identification in multi-camera surveillance networks. In: Proceedings of the 2012 International Conference on Digital Image Computing Techniques and Applications (DICTA). Fremantle, Australia: IEEE, 2012. 1−8 [57] Wu Z Y, Li Y, Radke R J. Viewpoint invariant human re-identification in camera networks using pose priors and subject-discriminative features. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(5): 1095-1108 doi: 10.1109/TPAMI.2014.2360373 [58] Li D W, Zhang Z, Chen X T, Huang K Q. A richly annotated pedestrian dataset for person retrieval in real surveillance scenarios. IEEE Transactions on Image Processing, 2018, 28(4): 1575−1590 [59] Sarfraz M S, Schumann A, Wang Y, Stiefelhagen R. Deep view-sensitive pedestrian attribute inference in an end-to-end model. In: Proceedings of the 2017 British Machine Vision Conference. London, UK: BMVA Press, 2017. 134.1−134.13 [60] Sarfraz M S, Schumann A, Eberle A, Stiefelhagen R. A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 420−429 [61] Zhao L M, Li X, Zhuang Y T, Wang J D. Deeply-learned part-aligned representations for person re-identification. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 3239−3248 [62] Song C F, Huang Y, Ouyang W L, Wang L. Mask-guided con−trastive attention model for person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 1179-1188 [63] Hu J, Shen L, Sun G. Squeeze-and-excitation networks. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7132−7141 [64] Nair V, Hinton G E. Rectified linear units improve restricted Boltzmann machines. In: Proceedings of the 27th International Conference on International Conference on Machine Learning. Madison, USA: Omnipress, 2010. 807−814 [65] Li W, Zhu X T, Gong S G. Harmonious attention network for person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 2285−2294 [66] Chen T L, Ding S J, Xie J Y, Yuan Y, Chen W Y, Yang Y, et al. ABD-Net: Attentive but diverse person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 8350−8360 [67] Fu J L, Zheng H L, Mei T. Look closer to see better: Recurrent attention convolutional neural network for fine-grained image recognition. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 4476−4484 [68] Dai Z X, Chen M Q, Gu X D, Zhu S Y, Tan P. Batch DropBlock network for person re-identification and beyond. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 3690−3700 [69] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 3431−3440 [70] Ghiasi G, Lin T Y, Le Q V. DropBlock: A regularization method for convolutional networks. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montreal, Canada: Curran Associates Inc., 2018. 10750−10760 [71] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks. In: Proceedings of the 13th European Conference on Computer Vision (ECCV 2014). Zurich, Switzerland: Springer, 2014. 818−833 [72] Zhou B L, Khosla A, Lapedriza A, Oliva A, Torralba A. Learning deep features for discriminative localization. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 2921−2929 [73] Peng P X, Xiang T, Wang Y W, Pontil M, Gong S G, Huang T J, et al. Unsupervised cross-dataset transfer learning for person re-identification. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1306−1315 [74] Deng W J, Zheng L, Ye Q X, Kang G L, Yang Y, Jiao J B. Image-image domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 994−1003 [75] Guo J Y, Yuan Y H, Huang L, Zhang C, Yao J G, Han K. Beyond human parts: Dual part-aligned representations for person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 3641−3650 [76] Selvaraju R R, Cogswell M, Das A, Vedantam R, Parikh D, Batra D. Grad-CAM: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 618−626 [77] 吴彦丞, 陈鸿昶, 李邵梅, 高超. 基于行人属性先验分布的行人再识别. 自动化学报, 2019, 45(5): 953-964Wu Yan-Cheng, Chen Hong-Chang, Li Shao-Mei, Gao Chao. Person re-Identification using attribute priori distribution. Acta Automatica Sinica, 2019, 45(5): 953-964 [78] Yang Q Z, Wu A C, Zheng W S. Person re-identification by contour sketch under moderate clothing change. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(6): 2029-2046 doi: 10.1109/TPAMI.2019.2960509 [79] Zhang L B, Huang S L, Liu W, Tao D C. Learning a mixture of granularity-specific experts for fine-grained categorization. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 8330−8339 [80] Simon M, Rodner E. Neural activation constellations: Unsupervised part model discovery with convolutional networks. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1143−1151 [81] Xiao T J, Xu Y C, Yang K Y, Zhang J X, Peng Y X, Zhang Z. The application of two-level attention models in deep convolutional neural network for fine-grained image classification. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 842−850 [82] Yin J H, Wu A C, Zheng W S. Fine-grained person re-identification. International Journal of Computer Vision, 2020, 128(6): 1654-1672 doi: 10.1007/s11263-019-01259-0 -