2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向行人重识别的局部特征研究进展、挑战与展望

姚足 龚勋 陈锐 卢奇 罗彬

崔志华, 张茂清, 常宇, 张江江, 王晖, 张文生. 基于平均距离聚类的NSGA-Ⅱ.自动化学报, 2021, 47(5): 1171-1182 doi: 10.16383/j.aas.c180540
引用本文: 姚足, 龚勋, 陈锐, 卢奇, 罗彬. 面向行人重识别的局部特征研究进展、挑战与展望. 自动化学报, 2021, 47(12): 2742−2760 doi: 10.16383/j.aas.c190821
Cui Zhi-Hua, Zhang Mao-Qing, Chang Yu, Zhang Jiang-Jiang, Wang Hui, Zhang Wen-Sheng. NSGA-Ⅱ with average distance clustering. Acta Automatica Sinica, 2021, 47(5): 1171-1182 doi: 10.16383/j.aas.c180540
Citation: Yao Zu, Gong Xun, Chen Rui, Lu Qi, Luo Bin. Research progress, challenge and prospect of local features for person re-identification. Acta Automatica Sinica, 2021, 47(12): 2742−2760 doi: 10.16383/j.aas.c190821

面向行人重识别的局部特征研究进展、挑战与展望

doi: 10.16383/j.aas.c190821
基金项目: 国家自然科学基金(61876158), 四川省重点研发项目(2019YFS0432)资助
详细信息
    作者简介:

    姚足:西南交通大学计算机与人工智能学院硕士研究生. 主要研究方向为行人重识别和深度学习.E-mail: yaozu@my.swjtu.edu.cn

    龚勋:西南交通大学计算机与人工智能学院教授. 主要研究方向为图像处理, 模式识别及深度学习. 本文通信作者.E-mail: gongxun@swjtu.edu.cn

    陈锐:西南交通大学计算机与人工智能学院硕士研究生. 主要研究方向为人脸识别和深度学习.E-mail: richard3chen@gmail.com

    卢奇:西南交通大学计算机与人工智能学院硕士研究生. 主要研究方向为人脸识别和深度学习.E-mail: luqi@my.swjtu.edu.cn

    罗彬:西南交通大学计算机与人工智能学院硕士研究生. 主要研究方向为行人重识别和深度学习.E-mail: ansvic@icloud.com

Research Progress, Challenge and Prospect of Local Features for Person Re-Identification

Funds: Supported by National Natural Science Foundation of China (61876158) and Sichuan Science and Technology Program (2019YFS0432)
More Information
    Author Bio:

    YAO Zu Master student at the School of Computing and Artificial Intelligence, Southwest Jiaotong University. His research interest covers person re-identification and deep learning

    GONG Xun Professor at the School of Computing and Artificial Intelligence, Southwest Jiaotong University. His research interest covers medical image processing, pattern recognition, and deep learning. Corresponding author of this paper

    CHEN Rui Master student at the School of Computing and Artificial Intelligence, Southwest Jiaotong University. His research interest covers face recognition and deep learning

    LU Qi Master student at the School of Computing and Artificial Intelligence, Southwest Jiaotong University. His research interest covers face recognition and deep learning

    LUO Bin Master student at the School of Computing and Artificial Intelligence, Southwest Jiaotong University. His research interest covers person re-identification and deep learning

  • 摘要: 行人重识别(Person re-identification, Re-ID)旨在跨区域、跨场景的视频中实现行人的检索及跟踪, 其成果在智能监控、刑事侦查、反恐防暴等领域具有广阔的应用前景. 由于真实场景下的行人图像存在光照差异大、拍摄视角不统一、物体遮挡等问题, 导致从图像整体提取的全局特征易受无关因素的干扰, 识别精度不高. 基于局部特征的方法通过挖掘行人姿态、人体部位、视角特征等关键信息, 可加强模型对人体关键区域的学习, 降低无关因素的干扰, 从而克服全局特征的缺陷, 也因此成为近几年的研究热点. 本文对近年基于局部特征的行人重识别文献进行梳理, 简述了行人重识别的发展历程, 将基于局部特征的方法归纳为基于姿势提取、基于特征空间分割、基于视角信息、基于注意力机制四类, 并详细阐述了每一类的原理及优缺点. 然后在三个主流行人数据集上对典型方法的识别性能进行了分析比较, 最后总结了目前基于局部特征算法的难点, 并对未来本领域的研究趋势和发展方向进行展望.
  • 图像复原旨在对图像降质过程进行建模, 求解降质模型的逆过程, 从降质图像中恢复出原始的清晰图像. 模糊是一种常见的图像降质现象, 通常由于相机的抖动、散焦以及物体的运动造成. 单幅图像去模糊问题研究如何从一幅模糊图像中恢复出原始的清晰图像. 根据模糊核是否已知, 去模糊方法可分为两类: 1)若模糊核已知, 则称为非盲复原方法; 2)若模糊核未知, 则称为盲复原方法.

    对于均匀模糊图像的形成过程可以表示为如下卷积模型

    $${\boldsymbol{y}} = {\boldsymbol{h}}\ast{\boldsymbol{x}}+{\boldsymbol{n}}$$ (1)

    其中, ${\boldsymbol{y}}$表示模糊图像, ${\boldsymbol{x}}$表示清晰图像, $\ast$表示卷积运算, ${\boldsymbol{h}}$为模糊核, ${\boldsymbol{n}}$为噪声. 在卷积模型下, 图像盲复原即研究如何从模糊图像中同时估计出模糊核${\boldsymbol{h}}$和清晰图像${\boldsymbol{x}}$. 由于将模糊过程建模为卷积的形式, 因此盲复原问题也称为盲解卷积问题.

    图像盲解卷积是一个严重的欠定逆问题, 待求解的未知变量数目大于已知方程的数目, 解不唯一. 现有的大部分方法通过引入模糊核和图像的先验知识来约束问题的解空间.

    一类为基于显著边缘的方法, 此类方法充分利用图像中的显著边缘结构对模糊核进行估计. Jia等[1]首先利用图像边缘进行运动模糊核的估计, 其边缘的选取是通过手工抠图完成的, 这一方法非常依赖抠图的准确性. Joshi等[2]直接从模糊图像中提取出显著边缘, 并根据提取的边缘估计模糊核, 然而, 由于很难直接从大模糊图像中提取显著性边缘, 此方法仅对于小模糊图像较为有效. Cho等[3]利用冲击滤波器(Shock filter)对图像进行边缘的选择并用于模糊核估计; Xu等[4]在该方法的基础上验证了不同宽度的边缘对于模糊核估计的影响. 这种方法由于增强模糊图像的边缘, 在迭代求解的过程中, 为了避免出现边缘过增强等现象, 一般需要根据迭代次数不断调节边缘增强算法的参数, 因而对参数设置较为敏感.

    另一类为基于最大后验概率(Maximum a posteriori estimation, MAP)估计或其变分模型的方法[5-18]. 基于MAP估计的方法在条件概率服从某一种噪声模型, 结合清晰图像和模糊核的先验概率模型的假设条件下, 通过最大化后验概率来估计清晰图像和模糊核, 而变分模型则是在噪声概率模型服从高斯分布的条件下, 通过负对数函数将最大化后验概率问题转换为最小二乘问题. 早期, Chan 等[5]利用全变分的方法来约束清晰图像的梯度. Levin等[6]提出了一种超拉普拉斯先验建模图像的梯度来估计模糊核. Fergus等[7]假设清晰图像的梯度服从拖尾分布(Heavy-tailed distribution), 结合高斯分布模型利用变分贝叶斯方法和期望最大化求解最大后验概率问题. Levin等[8]证明直接求解最大后验概率问题偏向获得平凡解, 即模糊图像本身和二维狄拉克函数, 这是因为图像梯度先验在很多情况下偏向于模糊图像, 而不是清晰图像. Perrone等[9]利用全变分正则化进行模糊核的估计, 并且证明了投影交替最小化(Projected alternating minimization, PAM)方法可以有效避免平凡解. 图像梯度表示邻域内像素之间的关系, 由于自然图像包含复杂的结构, 仅利用相邻像素之间的关系很难清楚地描述这种复杂的结构, 基于图像块的先验可以表示更大更复杂的图像结构. Michaeli等[10]利用不同尺度图像之间图像块的相似性作为先验来估计模糊核. Zhang等[11] 将图像块的稀疏表示作为先验进行模糊估计, 并利用K-SVD (K-singular value decomposition)算法[19]通过其他自然图像或模糊图像本身训练字典. Ren等[12]构造了图像亮度和梯度的低秩约束先验用于模糊核的估计. Pan等[13]在模糊核的估计中引入了暗通道先验, 即图像块中不同通道的最小像素值, 但是这种方法不适用于缺乏暗像素以及有噪的图像, 这是因为在这种情况下, 无法保证暗通道的稀疏性. 在Pan等[13] 方法的基础上, Yan等[14]结合亮通道先验与暗通道先验作为约束项以提高算法的鲁棒性. 常振春等[15] 将图像块的稀疏表示和非局部(Non-local)自相似模型作为先验进行模糊核的估计. Chen等[16]利用$\ell_1$范数约束局部最大梯度值作为正则化项来估计模糊核.

    本文将上述方法统称为基于模型的方法. 近些年, 基于深度学习的方法[20-23]逐渐广泛应用于图像去模糊领域. 最初, 此类方法主要是采用深度卷积神经网络(Convolution neural network, CNN)模型实现对清晰图像的估计或者对模糊核的估计. Su等[20]首先提出了一种基于深度卷积神经网络的视频去模糊算法, 该方法通过卷积神经网络模型端到端地学习多帧模糊图像与清晰图像之间的关系并用于清晰图像的复原. Yan等[21]利用深度卷积神经网络进行模糊核分类并利用广义回归神经网络(General regression neural network, GRNN)进行模糊核参数的估计. Sun等[22]设计了一种基于马尔科夫随机场(Markov random field, MRF)的卷积神经网络用于非均匀模糊核的估计. 从卷积神经网络到近期提出的生成式对抗网络(Generative adversarial network, GAN)[24], 基于深度学习的方法取得了更好的去模糊效果. Kupyn等[23]利用条件生成式对抗网络(Conditional generative adversarial network, cGAN)进行去模糊, 使网络直接输出清晰图像. 然而, 基于深度学习的方法主要有3个方面的问题: 1) 网络很难训练, 需要大量的训练数据, 而且对参数的设置非常敏感; 2)网络无法保证输出的结果符合数据保真项, 虽然在训练过程中可以产生较好的效果, 但是在不同于训练数据特征的图像上可能会失效; 3) 对于估计不同类型的模糊核, 需要用不同的模糊图像训练网络, 且很难获取真实模糊训练数据集. 综上所述, 基于深度学习的方法受到了一定程度的限制.

    目前大部分的盲解卷积算法对噪声较为敏感, 尤其对于大模糊有噪图像, 无法准确估计模糊核. 本文的算法旨在构造基于图像块的先验模型, 解决大模糊有噪图像的模糊核估计问题. 本文提出了一种基于跨尺度低秩约束的单幅图像盲解卷积算法, 利用跨尺度自相似性, 在降采样图像中搜索相似的图像块, 构成相似块图像组矩阵, 通过对相似图像块组矩阵进行低秩约束, 迫使当前图像在迭代中更加清晰, 使重建图像接近清晰图像. 一方面, 模糊降低了图像的跨尺度自相似性, 清晰图像的跨尺度自相似性强于模糊图像的跨尺度自相似性, 因此图像跨尺度低秩先验使解偏向清晰图像而不是模糊图像; 另一方面, 降采样减弱了图像的模糊程度, 与模糊图像相比, 其降采样图像与清晰图像具有更强的相似性, 迫使模糊图像更加接近清晰图像. 文献[10]在上述两点结论的基础上, 通过约束相似图像块与清晰图像块之间的相似性来估计模糊核, 该算法与本文的算法均利用跨尺度自相似性提供的附加信息进行模糊核估计, 不同之处在于该算法将图像中的各个图像块与其每一个相似图像块进行单独比较, 相似图像块之间是相互独立的, 通过最小化清晰图像块与相似图像块之间的均方误差来约束清晰图像块. 为了更好地利用相似图像块之间的相关性, 本文的算法将降采样图像中的相似图像块构造为一个相似图像块组, 并对该组进行整体的低秩约束, 一是非局部相似图像块引入了附加的空间结构信息, 更有利于图像块空间结构的重建, 二是噪声数据在相似图像块组数据中更加稀疏, 更有利于从稀疏噪声中恢复潜在的图像数据, 因此, 本文的算法能够解决大尺寸模糊核的盲解卷积问题, 并且避免盲解卷积过程受噪声的干扰.

    本文后续结构组织如下: 第1节描述本文提出的图像跨尺度低秩先验模型; 第2节阐述本文提出的基于跨尺度低秩先验的图像盲解卷积模型以及求解过程; 第3节通过定量和定性实验验证本文算法的有效性; 第4节分析跨尺度低秩先验的有效性与局限性; 第5节为全文的总结.

    跨尺度自相似性普遍存在于自然图像中, 本文从模糊图像的降采样图像中搜索相似图像块组成相似块组矩阵, 对跨尺度相似图像块组矩阵进行低秩约束.

    多尺度自相似性是指在同一场景中存在着相同尺度以及不同尺度的相似结构. 这种多尺度自相似性具体表现为图像中所具有的相同尺度以及不同尺度的相似图像块[25], 即从图像中提取一个图像块, 可在原尺度图像及其他尺度的图像中找到相似的图像块. 相机的透视投影是图像的多尺度自相似性普遍存在的主要原因. Glasner等[26]通过大量图像的实验证明了相似图像块普遍存在于同一场景的相同尺度以及不同尺度图像中, 由于小尺寸的图像块只含有少量信息, 通常只包含一个边缘、角点等, 因此, 即使人类视觉不易察觉小尺寸的相似图像块, 但这些图像块普遍存在于自然图像的多尺度图像中. 不同尺度的图像自相似性简称为跨尺度自相似性.

    图1展示了自然图像的多尺度自相似性. 图1(a)为一幅清晰的自然图像, 对于红色方框标记的一个7×7的图像块, 在该图像中搜索同尺度相似图像块, 用蓝色方框标记, 图1(b)为清晰图像中给定图像块及其同尺度相似图像块的细节放大图. 对图1(a)进行2倍降采样, 如图1(c)所示, 图中蓝色方框标记的图像块为在该图像中搜索的跨尺度相似图像块, 图1(d)为清晰图像中给定图像块及其跨尺度相似图像块的细节放大图, 其中, 红色方框为原尺度图像中给定的图像块. 跨尺度自相似性存在于不同尺度的图像中, 而模糊图像的模糊核会随着图像尺度的变化而发生尺度变换, 即同一幅模糊图像的不同尺度图像的模糊程度不同, 从而导致模糊图像的跨尺度自相似性减弱, 如图2所示. 图2(a)图1(a)对应的模糊图像, 红色方框标记了模糊图像中对应的7×7图像块, 蓝色方框标记了该图像中的同尺度相似图像块, 图2(b)为模糊图像中给定图像块及其同尺度相似图像块的细节放大图. 同样地, 对图2(a)进行2倍降采样, 如图2(c)所示, 图中蓝色方框标记了在降采样模糊图像中搜索的跨尺度相似图像块, 图2(d)为模糊图像中给定图像块及其跨尺度相似图像块的细节放大图. 通过观察图2(b)图2(d)可以发现, 对于模糊图像, 同尺度相似图像块有着较强的相似性, 而跨尺度相似图像块的相似性明显减弱. 通过观察图1图2说明了清晰图像的跨尺度自相似性强于模糊图像的跨尺度自相似性.

    图 1  清晰图像的多尺度自相似性
    Fig. 1  Multi-scale self-similarity of the sharp image
    图 2  模糊图像的多尺度自相似性
    Fig. 2  Multi-scale self-similarity of the blurry image

    图3说明了降采样模糊图像比模糊图像本身与清晰图像的相似性更强. 对于图1(b)中红色方框标记的清晰图像块, 在图3(a)所示的模糊图像和图3(c)所示降采样模糊图像中搜索其相似图像块并用蓝色方框标记, 图3(b)图3(d)分别为搜索的相似图像块的细节放大图. 通过比较图3(b)图3(d)可以看出, 由于降采样模糊图像的模糊程度减弱, 从降采样模糊图像中搜索的相似块相比从模糊图像本身搜索的相似块, 与清晰图像块具有更强的相似性.

    图 3  模糊图像和降采样模糊图像分别与清晰图像的相似性比较
    Fig. 3  Comparison of similarities between the blurry image and the down-sampled blurry image related the sharp image

    跨尺度自相似性可以为图像盲复原提供必要的附加信息. 图4给出了跨尺度自相似性在图像复原应用中的解释, 图中左边为清晰图像及其降采样图像, 右边为模糊图像及其降采样图像. 参照Michaeli等[10]通过一维信号对模糊信号的降采样信号与清晰信号相似性的证明, 本文利用二维信号进行简要证明, 记二维坐标为$\xi$$\eta$. 由于跨尺度自相似性普遍存在于自然场景中, 在图中左边, 假设${p}_1(\xi,\eta)$${p}_2(\xi,\eta)$为同一场景中不同尺寸的相似结构, 忽略采样问题的影响, ${p}_2(\xi,\eta)$的尺寸为${p}_1(\xi,\eta)$$a$倍, 可表示为${p}_2(\xi,\eta) = {p}_1({\xi}/{a},{\eta}/{a})$, ${p}_2^a(\xi,\eta)$${p}_2(\xi,\eta)$的降采样版本, 即

    图 4  跨尺度自相似性用于图像盲复原的解释
    Fig. 4  Interpretation of cross-scale self-similarity for blind image restoration
    $${p}_2^a(\xi,\eta) = {p}_2(a\xi,a\eta) = {p}_1(\xi,\eta)$$ (2)

    因此, ${p}_2^a(\xi,\eta)$${p}_1(\xi,\eta)$具有相同的尺寸; 在图中右边, ${p}_3(\xi,\eta)$, ${p}_4(\xi,\eta)$分别为${p}_1(\xi,\eta)$, ${p}_2(\xi,\eta)$的模糊版本, 即

    $$\quad\;{p}_3(\xi,\eta) = {p}_1(\xi,\eta)\ast {h}(\xi,\eta)$$ (3)
    $$\qquad \qquad\qquad\begin{split}{p}_4(\xi,\eta) =\;& {p}_2(\xi,\eta)\ast{h}(\xi,\eta) =\\ &{p}_1\left(\frac{\xi}{a},\frac{\eta}{a}\right)\ast{h}(\xi,\eta) \end{split}$$ (4)

    其中, ${h}(\xi,\eta)$为模糊核. ${p}_4^a(\xi,\eta)$${p}_4(\xi,\eta)$的降采样版本, 由式(4)可得

    $${p}_4^a(\xi,\eta) = {p}_4(a\xi,a\eta) = {p}_1(\xi,\eta)\ast {h}(a\xi,a\eta)$$ (5)

    ${p}_4^a(\xi,\eta)$${p}_3(\xi,\eta)$具有相同的尺寸. 根据式(5), ${p}_4^a(\xi,\eta)$可认为是由清晰结构${p}_1(\xi,\eta)$与模糊核${h}(a\xi,a\eta)$卷积的结果, 由于${h}(a\xi,a\eta)$的尺寸是${h}(\xi,\eta)$$1/a$倍, 因此, 相比于${h}(\xi,\eta)$, ${h}(a\xi,a\eta)$对图像造成的模糊程度更小.

    为了描述简便, 将二维信号表示为向量形式. 比较式(3)和式(5)可知, ${\boldsymbol{p}}_4^a$${\boldsymbol{p}}_3$的边缘更加清晰, 相比于${\boldsymbol{p}}_3$, ${\boldsymbol{p}}_4^a$的边缘更接近清晰结构${\boldsymbol{p}}_1$的边缘, 可得: 结论1) ${{SIM}}({\boldsymbol{p}}_1,{\boldsymbol{p}}_4^a)>{{SIM}}({\boldsymbol{p}}_1,{\boldsymbol{p}}_3)$; 同时, 结合式(2)可以看出, 相比于${\boldsymbol{p}}_1$${\boldsymbol{p}}_2^a$, ${\boldsymbol{p}}_3$${\boldsymbol{p}}_4^a$的相似性较弱, 可得: 结论2)${{SIM}}({\boldsymbol{p}}_1,{\boldsymbol{p}}_2^a)>{{SIM}}({\boldsymbol{p}}_3,{\boldsymbol{p}}_4^a)$, 其中, ${{SIM}}(\cdot)$表示相似性度量. 结论1)表明降采样模糊图像相比于模糊图像本身与清晰图像具有更强的相似性, 即${\boldsymbol{p}}_4^a$${\boldsymbol{p}}_1$${\boldsymbol{p}}_3$${\boldsymbol{p}}_1$更加相似, 在复原过程中, ${\boldsymbol{p}}_4^a$能够为${\boldsymbol{p}}_1$的重建提供更多更准确的结构信息. 结论2)表明清晰图像比模糊图像具有更强的跨尺度自相似性, 即${\boldsymbol{p}}_1$${\boldsymbol{p}}_2^a$${\boldsymbol{p}}_3$${\boldsymbol{p}}_4^a$的相似性更强, 在复原过程中, 基于此性质的先验模型求解偏向于获得清晰图像.

    设清晰图像${\boldsymbol{x}}\in{\bf{R}}^{N}$的降采样图像表示为${\boldsymbol{x}}^{a}\in $${\bf{R}}^{N/a^2}$, 其中$N$为清晰图像的像素数, $a$为降采样因子. 从清晰图像${\boldsymbol{x}}$及其降采样图像${\boldsymbol{x}}^{a}$中抽取的图像块分别表示为${\boldsymbol{Q}}_j {\boldsymbol{x}}$${\boldsymbol{R}}_i{\boldsymbol{x}}^{a},$其中${\boldsymbol{Q}}_j\in{\bf{R}}^{n\times N}$${\boldsymbol{R}}_i\in{\bf{R}}^{n\times N/a^2}$为抽取矩阵, 分别用于从清晰图像及其降采样图像中抽取第$j$个和第$i$个图像块, 抽取的图像块尺寸为$n$. 对于图像中的任意图像块${\boldsymbol{Q}}_j {\boldsymbol{x}}$, 在降采样图像${\boldsymbol{x}}^{a}$中搜索其相似图像块${\boldsymbol{R}}_i{\boldsymbol{x}}^{a}$. 由于图像的不同尺度间广泛存在着跨尺度相似图像块, 即对于${\boldsymbol{Q}}_j{\boldsymbol{x}}$, 可以在降采样图像${\boldsymbol{x}}^{a}$中寻找多个与其相似的图像块. 设在${\boldsymbol{x}}^{a}$中搜索$m-1$个与${\boldsymbol{Q}}_j{\boldsymbol{x}}$最相似的图像块, 并按列表示为${\boldsymbol{R}}_{j_i}{\boldsymbol{x}}^{a} \in{{\bf{R}}}^{n},i = 1,\cdots,$${m-1},{\boldsymbol{Q}}_j{\boldsymbol{x}}$与这些在降采样图像中的相似图像块聚合构成一个跨尺度相似图像块组${\boldsymbol{P}}_{j}$, 可表示为

    $${\boldsymbol{P}}_{j} = [{\boldsymbol{Q}}_j{\boldsymbol{x}}, {\boldsymbol{R}}_{j_1}{\boldsymbol{x}}^{a},\cdots,{\boldsymbol{R}}_{j_{m-1}}{\boldsymbol{x}}^{a} ]\in{\bf{R}}^{n\times m}$$ (6)

    其中, $n$为图像块的尺寸, $m$为图像块的个数.

    本文提出了一种基于跨尺度自相似性的低秩先验模型, 利用低秩矩阵估计(Low rank matrix approximation, LRMA)对跨尺度相似图像块组矩阵进行低秩约束, 该先验模型如下所示

    $$ \begin{split}&\min\limits_{{\boldsymbol{L}}_{j}} \Vert {\boldsymbol{P}}_{j}-{\boldsymbol{L}}_{j} \Vert^{2}_{ {\rm{F}}} \\ & {\rm{s.t.}} \;\;{\rm{rank}} ({\boldsymbol{L}}_{j})\le t \end{split}$$ (7)

    式中, ${\boldsymbol{P}}_{j}$表示图像块${\boldsymbol{Q}}_j{\boldsymbol{x}}$与其在降采样图像中搜索的相似图像块构成的组矩阵, ${\boldsymbol{L}}_{j}$表示观测矩阵${\boldsymbol{P}}_{j}$中潜在的低秩结构, ${\left\| \cdot \right\|}_ {{\rm{F}}}$表示矩阵Frobenius范数, ${\rm{rank}} (\cdot)$为秩函数, $t$为限制矩阵秩的常数. 跨尺度低秩先验模型的有效性体现在如下两点: 1)由于模糊的作用, 清晰图像的跨尺度自相似性强于模糊图像的跨尺度自相似性, 此先验使目标函数的解偏向于清晰图像而不是模糊图像; 2)由于降采样降低了图像的模糊程度, 从降采样模糊图像中找到的相似块比模糊图像中找到的相似块, 与清晰图像具有更强的相似性, 所以利用从降采样模糊图像中搜索的相似块构成相似图像块组, 通过对相似图像块组的低秩约束迫使重建图像更加接近清晰图像. 此外, 低秩结构更好地表示了数据的全局结构, 提高了对噪声的鲁棒性.

    尽管图像跨尺度自相似性广泛存在, 然而, 并不是所有的图像块都能为图像复原提供有效的附加信息. 显著边缘的图像块对模糊核的估计起着关键的作用, 而灰度平坦的图像块对模糊核估计几乎不起作用, 例如若某一图像区域的像素值为常数, 则该区域经过模糊后的像素值仍为同一常数, 在该区域清晰图像与模糊图像完全相同, 因此这一区域并不能为模糊核的估计提供有效的信息. 本文将灰度值变化较小的图像块称为平坦块, 灰度值变化较大的图像块称为细节块, 在跨尺度低秩先验模型中, 仅将细节块用于模糊核的估计. 本文考虑了两种筛选图像中细节块的方案: 1)计算图像块的方差, 方差较大的图像块说明图像块中灰度变化较为剧烈; 2)计算像素的梯度, 较大的梯度表明邻域内像素灰度变化明显, 即对应显著边缘的区域. 前者需要对图像中的每一个图像块计算方差, 计算量大; 后者可以利用模板卷积的边缘检测实现, 速度快, 且通常图像块的尺寸很小, 图像块的灰度变化基本上等效于邻域内的灰度变化. 因此, 本文利用图像边缘检测确定细节块.

    由于相似图像块经常出现在邻近区域, 因而在降采样图像中一定尺寸的搜索窗口内通过图像块匹配搜索相似图像块. 图像块相似性的判据有多种度量准则, 如欧氏距离、相关系数等, 本文采用欧氏距离作为图像块相似性的度量依据. 对于不同程度的细节块, 所搜索相似图像块的个数不同, 即对于不同细节块, 其相似图像块组矩阵的列数不同. 本文采用一种自适应方法[26]确定图像块相似性判断的阈值, 对原始图像${\boldsymbol{x}}$进行插值移位, 生成具有$1/2$亚像素位移的图像$\tilde{ {\boldsymbol{x}} }$, 对于每一个输入图像块${\boldsymbol{Q}}_j{\boldsymbol{x}}$, 在$\tilde{ {\boldsymbol{x}} }$中找到对应位置的图像块${\boldsymbol{Q}}_j \tilde{{\boldsymbol{x}} }$, 阈值$\delta_d$的计算式为

    $$\delta_d = \gamma \Vert {\boldsymbol{Q}}_j{\boldsymbol{x}} - {\boldsymbol{Q}}_j \tilde{{\boldsymbol{x}} } \Vert _2$$ (8)

    其中, $\gamma$为控制系数. 选取欧氏距离小于$\delta_d$的图像块作为原图像块的相似块. 由式(8)可知, 图像块灰度变化越剧烈, 阈值$\delta_d$越大; 反之, 图像块灰度变化越平缓, 阈值$\delta_d$则越小. 与此同时, 设置相似块搜索个数的下限$\Delta_l$和上限$\Delta_h$, 即相似块个数满足$\Delta_l \le m \le \Delta_h$. 如果搜索到的相似块个数小于$\Delta_l$, 则不采用此图像块; 如果搜索到的相似块个数大于$\Delta_h$, 那么仅选取前$\Delta_h$个相似图像块.

    在上一节提出的跨尺度低秩先验模型的基础上, 本节给出了本文图像盲解卷积算法的数学模型及求解过程.

    本文结合跨尺度自相似性与低秩矩阵估计, 将式(7)中的图像跨尺度低秩先验作为正则化约束, 提出的单幅图像盲解卷积算法可表示为如下约束最优化问题:

    $$ \begin{split} &\min\limits_{{\boldsymbol{x}},{\boldsymbol{h}}}\,\Bigg\{ \Vert \nabla {\boldsymbol{y}}-{\boldsymbol{h}}\ast \nabla {\boldsymbol{x}}\Vert^{2}_{2}+ \lambda_{s} \frac{N}{|{\boldsymbol{M}}|} \sum_{j \in {\boldsymbol{M}} } \Vert {\boldsymbol{P}}_{j}-{\boldsymbol{L}}_{j} \Vert^{2}_{ {\rm{F}}} \;+\\ &\qquad\lambda_{g} \Vert \nabla {\boldsymbol{x}} \Vert ^{2}_{2}+\lambda_{h} \Vert {\boldsymbol{h}} \Vert ^{2}_{2}\Bigg\} \\ &{\rm{s.t.}}\,\;\;{\rm{rank}} ({\boldsymbol{L}}_{j})\le t \\[-10pt]\end{split}$$ (9)

    其中, ${\boldsymbol{y}}$为模糊图像, ${\boldsymbol{x}}$为清晰图像, ${\boldsymbol{h}}$为模糊核, $\nabla = \{ {\partial _x},{\partial _y}\}$为图像的梯度算子, ${\partial _x} $${\partial _y} $分别表示x方向和y方向的一阶差分算子, $\ast$表示卷积操作, ${\left\| \cdot \right\|}_2$表示$\ell_2$范数, ${\boldsymbol{M}}$为二值标记矩阵, 用于标记细节块的位置, $|{\boldsymbol{M}}|$${\boldsymbol{M}}$中非零元素的个数, $\lambda_{g}$, $\lambda_{s}$, $\lambda_{h}$为正则化参数. 式(9)中第1项为数据保真项, 保证复原结果符合图像的降质模型; 第2项为跨尺度低秩约束正则项, 迫使重建图像的边缘接近清晰图像的边缘, ${j \in {\boldsymbol{M}} }$表示将跨尺度低秩先验仅限制在标记矩阵${\boldsymbol{M}}$中值为1的细节块; 第3项为梯度约束项, 采用$\ell_2$范数对图像梯度进行约束, 能够减小基于图像块先验引入的边缘“棱角”效应, 保持图像边缘的平滑性; 第4项为模糊核的正则化约束项, 保证了模糊核的稀疏性.

    由于式(9)是非凸的, 没有闭合解, 本文采取交替迭代求解的方法对式(9)所示的最优化问题进行求解, 即先固定对清晰图像的估计$\hat{{\boldsymbol{x}}}_{k},$求解模糊核$\hat{{\boldsymbol{h}}}_{k+1},$再固定模糊核$\hat{{\boldsymbol{h}}}_{k+1}$更新对清晰图像的估计$\hat{{\boldsymbol{x}}}_{k+1}.$每一次迭代, 更新标记矩阵${\boldsymbol{M}},$通过对图像块进行筛选, 从而排除平坦块对模糊核估计的干扰.

    1)筛选图像块

    对清晰图像的当前估计结果$\hat{{\boldsymbol{x}}}_{k}$进行边缘估计, 边缘像素对应的图像块即为细节块, 参与模糊核的估计. 引入二值标记矩阵${\boldsymbol{M}}$, 若${\boldsymbol{M}}$中对应的图像块为细节块, 则该位置的元素值为1, 否则该位置的元素值为0. 本文利用Sun等[27]的边缘检测算法确定当前图像估计中的边缘像素, 该算法对于每一个像素, 利用方向算子选取8个方向模板中的最大响应幅度作为该像素的边缘强度.

    由于本文仅将跨尺度低秩正则化约束限制在图像的细节块, 导致当前估计的图像$\hat{{\boldsymbol{x}}}_{k}$中平坦块受到的约束较少, 从而可能导致复原图像的平滑区域含有较多的噪声, 为了减小噪声对边缘估计造成的干扰, 本文首先对当前估计的图像$\hat{{\boldsymbol{x}}}_{k}$进行高斯滤波, 然后对滤波后的图像进行边缘估计.

    2)估计模糊核

    对模糊核进行更新, 即固定$\hat{{\boldsymbol{x}}}_{k}$, 更新$\hat{{\boldsymbol{h}}}_{k+1}$, 此时目标函数简化为

    $$\hat{{\boldsymbol{h}}}_{k+1} = \arg\min\limits_{{\boldsymbol{h}}}\{ \Vert \nabla {\boldsymbol{y}} - {\boldsymbol{h}} \ast (\nabla \hat{{\boldsymbol{x}}}_{k} \odot {\boldsymbol{M}} ) \Vert_{2}^{2} + \lambda_{h} \Vert {\boldsymbol{h}} \Vert^{2}_{2}\}$$ (10)

    式中, $\odot$为哈达玛积 (Hadamard product). 在估计模糊核时, 仅利用图像中的细节块, 避免了平坦块对模糊核估计的影响, 有利于准确地估计模糊核. 式(10) 为关于${\boldsymbol{h}}$的二次函数, 因此存在闭合解, 令式(10)对${\boldsymbol{h}}$的导数为零, 可得

    $$ \begin{split} &\Bigl[(\partial_x\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})\circ(\partial_x\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})+(\partial_y\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}}) \circ\\ &\quad(\partial_x\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}}) + \lambda_{h}\Bigl]\ast\hat{{\boldsymbol{h}}}_{k+1} \ = (\partial_x\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})\circ\\ &\quad\partial_x {\boldsymbol{y}}+(\partial_y\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}}) \circ\partial_y {\boldsymbol{y}} \end{split}$$ (11)

    其中, $\circ$表示相关运算. 根据卷积定理可知, 空域中图像的卷积等效于频域中傅里叶变换的乘积, 本文将式(11)转换到频域求解:

    $$ \begin{split} &\Bigl[\overline{{\cal{F}}(\partial_x\hat{{\boldsymbol{x}}}_k\odot {{\boldsymbol{M}}})} \odot{\cal{F}} (\partial_x\hat{{\boldsymbol{x}}}_k\odot {{\boldsymbol{M}}}) \;+\\ &\qquad\overline{{\cal{F}}(\partial_y\hat{{\boldsymbol{x}}}_k\odot {{\boldsymbol{M}}})}\odot{\cal{F}} (\partial_x\hat{{\boldsymbol{x}}}_k \odot {{\boldsymbol{M}}}) + \lambda_{h}\Bigl]\odot\\ &\qquad{\cal{F}}(\hat{{\boldsymbol{h}}}_{k+1}) = \overline{{\cal{F}}(\partial_x\hat{{\boldsymbol{x}}}_k\odot {{\boldsymbol{M}}})} \odot{\cal{F}}( \partial_x {\boldsymbol{y}})\;+\\ &\qquad\overline{{\cal{F}}(\partial_y\hat{{\boldsymbol{x}}}_k\odot {{\boldsymbol{M}}})}\odot{\cal{F}}( \partial_y {\boldsymbol{y}}) \end{split}$$ (12)

    由式(12)可得${\boldsymbol{h}}$的闭合解如式(13)所示

    $$\hat{{\boldsymbol{h}}}_{k+1} = {\cal{F}}^{-1}\left(\frac{\overline{{\cal{F}}(\partial_x\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})}{\cal{F}}(\partial_x{\boldsymbol{y}}) + \overline{{\cal{F}}(\partial_y\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})} {\cal{F}}(\partial_y{\boldsymbol{y}})}{ \overline{{\cal{F}}( \partial_x\hat{{\boldsymbol{x}}}_k \odot {\boldsymbol{M}})} {\cal{F}}( \partial_x\hat{{\boldsymbol{x}}}_k \odot {\boldsymbol{M}}) + \overline{{\cal{F}}(\partial_y\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}})} {\cal{F}}(\partial_y\hat{{\boldsymbol{x}}}_k\odot {\boldsymbol{M}}) + \lambda_h}\right)$$ (13)

    式中, ${\cal{F}}(\cdot)$表示傅里叶变换, ${\cal{F}}^{-1}(\cdot)$表示傅里叶逆变换, $\overline{{\cal{F}}(\cdot)}$表示傅里叶变化的复共轭.

    3)估计清晰图像

    在上一次迭代估计的基础上, 对清晰图像进行更新, 即固定$\hat{{\boldsymbol{h}}}_{k+1},$给定$\hat{{\boldsymbol{x}}}_{k},$更新$\hat{{\boldsymbol{x}}}_{k+1},$式(9)所示的目标函数简化为

    $$ \begin{split} \hat{{\boldsymbol{x}}}_{k+1} =& \arg\min\limits_{{\boldsymbol{x}}} \Vert \nabla {\boldsymbol{y}} - \hat{{\boldsymbol{h}}}_{k+1} \ast \nabla {\boldsymbol{x}} \Vert ^{2}_{2}\;+ \\ &\lambda_{s} \frac{N}{|{\boldsymbol{M}}|} \sum_{j \in {\boldsymbol{M}} } \Vert {\boldsymbol{P}}_{j}-{\boldsymbol{L}}_{j} \Vert^{2}_{ {\rm{F}}}+\lambda_{g}\Vert \nabla {\boldsymbol{x}} \Vert ^{2}_{2} \end{split}$$ (14)

    由于${\boldsymbol{P}}_{j}$的低秩结构${\boldsymbol{L}}_{j}$的估计依赖于方程的解$\hat{{\boldsymbol{x}}}_{k+1},$因而无法得到闭合解. 本文利用上一次对清晰图像的估计$\hat{{\boldsymbol{x}}}_{k}$近似$\hat{{\boldsymbol{x}}}_{k+1}$进行求解, 并用核范数对秩函数进行松弛来约束${\boldsymbol{L}}_{j}$的低秩性, 将式(7)写为拉格朗日的形式为

    $$ \hat{{\boldsymbol{L}}}_{j} = \arg\min\limits_{{\boldsymbol{L}}_{j}} \Vert {\boldsymbol{P}}_{j}-{\boldsymbol{L}}_{j} \Vert^{2}_{ {\rm{F}}} +\beta \Vert {\boldsymbol{L}}_{j} \Vert ^{}_{*} $$ (15)

    式中, ${\left\| \cdot \right\|}_*$为核范数, $\beta$为平衡数据保真项与低秩项的参数. 本文利用奇异值软阈值算法(Singular value thresholding, SVT)[28]对式(15)求解, 首先对组矩阵${\boldsymbol{P}}_{j}$进行奇异值分解

    $${\boldsymbol{P}}_{j} = {\boldsymbol{U}}_{j}{\boldsymbol{\Sigma}}_{j}{\boldsymbol{V}}_{j}^{\rm{T}}$$ (16)

    其中, ${\boldsymbol{U}}_{j}$${\boldsymbol{V}}_{j}$为标准正交矩阵, ${\boldsymbol{\Sigma}}_{j} = {{\rm{diag}}} \{\sigma_{j,1},\cdots,$$\sigma_{j,r}\}$为奇异值对角矩阵, $\sigma_{j,i},i = 1,\cdots,r$为矩阵${\boldsymbol{P}}_{j}$的奇异值, $r = \min(m,n),m$$n$表示组矩阵${\boldsymbol{P}}_{j}$的列数和行数. 利用奇异值软阈值算法求解组矩阵${\boldsymbol{P}}_{j}$的低秩结构${\boldsymbol{L}}_{j}$, 其闭合解为

    $$ \hat{{\boldsymbol{L}}}_{j} = {\boldsymbol{U}}_{j} {\cal{S}}_{ \beta }({\boldsymbol{\Sigma}}_{j}) {\boldsymbol{V}}^{\rm{T}}_{j} $$ (17)

    其中, ${\cal{S}}_{ \beta }({\boldsymbol{\Sigma}}_{j})$是以$\beta \ge 0$为参数的软阈值算子, 定义为

    $${{\cal{S}}_{ \beta }( {{\boldsymbol{\Sigma}}} _j) = {{\rm{soft}}}( {{\boldsymbol{\Sigma}}} _{j} , \beta ) = \max({{\boldsymbol{\Sigma}}} _{j} - \beta , 0) }$$ (18)

    $\hat{{\boldsymbol{L}}}_{j}$中的第1列为图像块${\boldsymbol{Q}}_j {\boldsymbol{x}}$的重建结果${\boldsymbol{Q}}_j \hat {{\boldsymbol{x}}}_k.$通过对所有细节块的重建图像块${\boldsymbol{Q}}_j \hat {{\boldsymbol{x}}}_k$进行求和处理可得低秩约束的重建图像, 即

    $${\boldsymbol{z}}_k = \sum\limits_{ j \in {\boldsymbol{M}} }{\boldsymbol{Q}}_{j}^{ {\rm{T}}}{\boldsymbol{Q}}_j \hat {{\boldsymbol{x}}}_k$$ (19)

    式中, ${\boldsymbol{Q}}_{j}^{ {\rm{T}}}$表示将重建图像块${\boldsymbol{Q}}_j \hat {{\boldsymbol{x}}}_k$根据抽取的位置放回图像中对应位置, 从而获得重建图像${\boldsymbol{z}}_k.$一方面, 清晰图像的跨尺度自相似性强于模糊图像的跨尺度自相似性, 通过跨尺度自相似性组成相似图像块组, 使得目标函数的解偏向清晰图像; 另一方面, 由于降采样模糊图像中图像块的边缘更加清晰, 与清晰图像具有更强的相似性, 通过约束相似图像块组的矩阵秩, 迫使当前图像估计的边缘更接近清晰图像的边缘.

    将式(14)转换为矩阵向量乘积的形式, ${\boldsymbol{P}}_{j}$为相似图像块组, 其中第1列为图像块${\boldsymbol{Q}}_j {\boldsymbol{x}},$为了在表达式中建立与图像${\boldsymbol{x}}$之间的关系, 将式(14)中$\Vert{\boldsymbol{P}}_{j} - {\boldsymbol{L}}_{j}\Vert_{ {\rm{F}}}^{2}$写为$\Vert {\boldsymbol{Q}}_{j} {\boldsymbol{x}} - {\boldsymbol{Q}}_{j}\hat{{\boldsymbol{x}}}_{k} \Vert_{2}^{2}$的形式, 可表示为

    $$ \begin{split} \hat{{\boldsymbol{x}}}_{k+1} =\;& \arg\min\limits_{{\boldsymbol{x}}} \Vert {\boldsymbol{\nabla}}_{x}{\boldsymbol{y}} - {\boldsymbol{H}}_{k+1}{\boldsymbol{\nabla}}_{x}{\boldsymbol{x}}\Vert_{2}^{2} \;+ \\ &\Vert{\boldsymbol{\nabla}}_{y}{\boldsymbol{y}} - {\boldsymbol{H}}_{k+1}{\boldsymbol{\nabla}}_{y}{\boldsymbol{x}} \Vert_{2}^{2}\;+ \\ &\lambda_{s} \frac{N}{|{\boldsymbol{M}}|} \sum_{j \in {\boldsymbol{M}} } \Vert {\boldsymbol{Q}}_{j} {\boldsymbol{x}} - {\boldsymbol{Q}}_{j}\hat{{\boldsymbol{x}}}_{k} \Vert_{2}^{2} \;+ \\ &\lambda_{g}\left( \Vert{\boldsymbol{\nabla}}_{x} {\boldsymbol{x}} \Vert_{2}^{2} + \Vert {\boldsymbol{\nabla}}_{y}{\boldsymbol{x}} \Vert_{2}^{2}\right) \end{split}$$ (20)

    式中, ${\boldsymbol{\nabla}}_{x},{\boldsymbol{\nabla}}_{y} \in {\bf{R}}^{N\times N}$分别为梯度算子$\partial_x$$\partial_y$的矩阵表示形式, 令上式对${\boldsymbol{x}}$的导数为0, 可得如下方程

    $$ \begin{split} &\left[({\boldsymbol{H}}_{k+1}^{ {\rm{T}}}{\boldsymbol{H}}_{k+1}+\lambda_{g}){\boldsymbol{G}} + \lambda_{s}\frac{N}{|{\boldsymbol{M}}|} \sum_{j\in{\boldsymbol{M}}}{\boldsymbol{Q}}_{j}^{ {\rm{T}}}{\boldsymbol{Q}}_{j}\right ]\hat{{\boldsymbol{x}}}_{k+1} =\\ &\qquad {\boldsymbol{H}}_{k+1}^{ {\rm{T}}}{\boldsymbol{G}}{\boldsymbol{y}} + \lambda_{s} \frac{N}{|{\boldsymbol{M}}|} {\boldsymbol{z}}_k \\[-15pt] \end{split} $$ (21)

    其中, ${\boldsymbol{G}} = {\boldsymbol{\nabla}}_{x}^{\rm{T}}{\boldsymbol{\nabla}}_{x}+{\boldsymbol{\nabla}}_{y}^{\rm{T}}{\boldsymbol{\nabla}}_{y},{\boldsymbol{z}}_k = \sum_{ j \in {\boldsymbol{M}} }{\boldsymbol{Q}}_{j}^{ {\rm{T}}}{\boldsymbol{Q}}_j \hat {{\boldsymbol{x}}}_k.$由于${\boldsymbol{M}}$的作用, 无法直接在频域中计算闭合解, 而大规模矩阵向量的乘积在频域中计算, 将式(21)写为如下形式

    $$ \begin{split} &\biggl\{{\cal{F}}^{-1}\Bigl[\left(\overline{{\cal{F}}({\boldsymbol{h}}_{k+1})}\odot {\cal{F}} ({\boldsymbol{h}}_{k+1}) +\lambda_{g}\right)\odot{\boldsymbol{F}}_g\Bigl]+ \\ &\quad\lambda_{s}\frac{N}{|{\boldsymbol{M}}|} \sum\limits_{j\in{\boldsymbol{M}}}{\boldsymbol{Q}}_{j}^{\rm{T}}{\boldsymbol{Q}}_{j}\}\hat{{\boldsymbol{x}}}_{k+1}= \\ &\quad{\cal{F}}^{-1}\Bigl[\overline{{\cal{F}}({\boldsymbol{h}}_{k+1})}\odot{\boldsymbol{F}}_{g}\odot{\cal{F}}({\boldsymbol{y}})\Bigl] +\lambda_{s}\frac{N}{|{\boldsymbol{M}}|} {\boldsymbol{z}}_k \\[-15pt] \end{split}$$ (22)

    其中, ${\boldsymbol{F}}_{g} = \overline{{\cal{F}}(\partial_{x})}\odot{\cal{F}}(\partial_{x})+\overline{{\cal{F}}(\partial_{y})}\odot{\cal{F}}(\partial_{y})$. 由于式(22)中线性方程组的系数矩阵是非对称的, 本文采取双共轭梯度法(Bi-conjugate gradient, BICG)来求解式(22), 获得$\hat{{\boldsymbol{x}}}_{k+1}$.

    本文算法的整体流程包括模糊核估计和清晰图像估计两个阶段, 如图5所示. 第1阶段中通过对式(9)的交替求解来对模糊核进行估计. 首先初始化清晰图像, 对当前估计的清晰图像进行细节块筛选构造标记矩阵, 在标记矩阵的指导下更新模糊核, 然后通过跨尺度低秩约束正则项重建图像, 重建图像可视为下一次迭代更新估计清晰图像$\hat{{\boldsymbol{x}}}_{k+1}$的参考图像. 通过对相似图像块组进行整体的低秩约束, 迫使重建图像的边缘更加清晰, 用模糊程度更小的重建图像作为参考图像, 可使下一次迭代得到更清晰的图像. 通过式(9)交替求解出的清晰图像仅是清晰图像的中间结果, 进一步利用非盲解卷积方法最终可得对清晰图像的估计. 第2阶段在第1阶段估计的模糊核$\hat{{\boldsymbol{h}}}$的基础上, 选择合适的非盲卷积方法从模糊图像中恢复出清晰图像, 例如Richardson-Lucy算法及其变形[29-32]、EPLL (Expected patch log likelihood)算法[33]、全变分正则化方法[4, 34]、稀疏非盲解卷积方法[8]和双边滤波残差消除法[13]等.

    图 5  本文算法流程
    Fig. 5  The pipeline of our method

    为了加速算法的收敛和处理大尺寸模糊, 与目前大部分算法相同, 本文通过构建图像金字塔模型由粗到细地估计模糊核. 在金字塔的每一层求解式(9)所示的目标函数, 在跨尺度相似图像块搜索的实际实现时, 直接在上一层估计的清晰图像中搜索相似图像块构造相似图像块组. 本文将当前层对清晰图像估计的插值图像作为下一层金字塔估计的初始清晰图像, 则下一层金字塔中对清晰图像的初始估计更接近真实的清晰图像, 从而加快了模糊核的估计过程并且提高了估计结果的准确性.

    算法1总结了基于跨尺度低秩约束的图像盲解卷积算法的伪代码, 根据输入的模糊图像${\boldsymbol{y}},$构建$K$层的图像金字塔, 若当前层为金字塔的第1层$(l = 1),$则将模糊图像${\boldsymbol{y}}$作为清晰图像初始估计$\hat{{\boldsymbol{x}}}_0,$设置$\hat{{\boldsymbol{x}}}_0 = {\boldsymbol{y}},$否则将上一层$(l - 1)$金字塔估计的清晰图像的插值结果作为当前层$(l)$清晰图像的初始估计$\hat{{\boldsymbol{x}}}_0.$在每一层$(l)$中, 利用交替迭代求解式(9)估计出模糊核$\hat{{\boldsymbol{h}}}_{k}^{(l)}$和清晰图像$\hat{{\boldsymbol{x}}}_{k}^{(l)},$这里上标表示图像金字塔的层数, 下标表示在每一层金字塔上迭代的次数, 直到迭代收敛或者达到预设的最大迭代次数.

    算法1的时间复杂度主要由内循环的4个步骤决定. 步骤1中采用边缘检测筛选细节块, 这种方法通过空域卷积实现, 空域卷积的时间复杂度为${\rm{O}}(Ns),$其中, $N$为图像的尺寸, $s$为卷积核的尺寸. 空域滤波的卷积核通常很小, 因此, 卷积操作的时间复杂度可近似记为${\rm{O}}(N).$步骤2直接在频域中计算模糊核的闭合解, 其中, 傅里叶变换的时间复杂度为${\rm{O}}(N \log N),$逐元素操作的时间复杂度为${\rm{O}}(N),$因此, 步骤2的时间复杂度可以记为${\rm{O}}(N \log N).$步骤3中, 对于所有细节块在搜索窗口内计算图像中块匹配误差的时间复杂度为${\rm{O}}(N_t w n);$查找搜索窗口内$m$个最相似图像块的时间复杂度为${\rm{O}}(N_t w \log w);$完全奇异值分解的时间复杂度为${\rm{O}}(N_t \times {{\rm{min}}}(m n^2,$$m^2 n)), $其中, $N_t$为标记矩阵${\boldsymbol{M}}$中对应的细节块数目, $w$为搜索窗口的尺寸, $n$为图像块的尺寸, $m$为选取的相似图像块数目. 由于奇异值分解的运行时间远小于块匹配误差计算和排序两部分的运行时间之和, 因此, 步骤3的时间复杂度可以记为${\rm{O}}(N_tw( n + \log w) ).$步骤4中BICG算法的时间复杂度为${\rm{O}}(\zeta+ N)$[35], 加上傅里叶变换的运行时间, 总的时间复杂度可记为${\rm{O}}(\zeta+ N\log N),$其中, $\zeta$为系数矩阵的非零项个数.

    算法1. 基于跨尺度低秩约束的图像盲解卷积算法

    输入. 模糊图像${\boldsymbol{y}}$

    输出. 模糊核估计$\hat{{\boldsymbol{h}}}$, 清晰图像估计$\hat{{\boldsymbol{x}}} $

    初始化. 设置降采样因子$a $; 清晰图像的初始估计$\hat{{\boldsymbol{x}}}_{0}$;

    正则化参数$\lambda_{g} $, $\lambda_{s} $, $\lambda_{h} $; 模糊核的尺寸$s$; 图像块大小${n} ;$  搜索窗口的尺寸$w;$最大循环迭代次数.

    构建$K $层图像金字塔

    for $ l = 1$ to $K$ do

     初始化$k=0 $

     repeat

      1) 估计图像的标记矩阵${\boldsymbol{M}}_k^{(l)}$

      2) 根据式(13)估计模糊核$\hat{{\boldsymbol{h}}}_{k+1}^{(l)}$

      3) 根据式(19)估计低秩约束的重建图像${\boldsymbol{z}}_k^{(l)} $

      4) 利用BICG算法求解式(22), 得到$\hat{{\boldsymbol{x}}}_{k+1}^{(l)} $

      $k=k+1$

     until迭代收敛或者达到预设的最大迭代次数

     将清晰图像估计的中间结果$\hat{{\boldsymbol{x}}}_{k}^{(l)}$上采样, 作为下一层金   字塔的初始估计$\hat{{\boldsymbol{x}}}_{0}^{(l+1)}$.

    end for

    从上述时间复杂度的分析可以看出, 步骤1和2的时间复杂度均不超过${\rm{O}}(N \log N)$, 步骤4中系数矩阵是稀疏的, 时间复杂度可近似为线性对数阶, 而步骤3为立方阶时间复杂度. 于是, 本文的算法如同一般使用相似图像块搜索的算法, 例如经典的BM3D算法[36], 主要耗时在相似图像块的遍历搜索上. 目前快速相似图像块搜索算法的研究不多, 未来快速算法的普遍研究将会为以相似图像块搜索为基础的算法提供速度上升的空间.

    本文设置图像块尺寸为$n = 5\times 5,$奇异值阈值$\beta$为0.2, 相似图像块个数的上限$\Delta_h$为19, 下限$\Delta_l$为5, 搜索窗口的尺寸为$w = 25 \times 25.$由于大多数真实图像的模糊核尺寸小于$51\times 51,$参照Sun等[27]和Michaeli等[10]的方式, 若无特殊说明, 本文设置模糊核的尺寸为$s = 51\times 51.$降采样因子$a$越大, 降采样模糊图像中的图像块越清晰, 但同时不同尺度图像之间的相似图像块的个数越少[26], 因此需要综合考虑设置降采样因子的取值, 本文参照Michaeli等[10]将金字塔之间的缩放因子设置为$4/3,$图像金字塔不同层对应的模糊核尺寸不同, 在构建金字塔模型时, 若当前层对应的模糊核尺寸小于$3\times 3,$则停止降采样的过程.

    本文在Kohler等[37]公开的数据集上验证算法的有效性, 此数据集包括4幅图像, 有12种模糊核(后5个为大尺寸模糊核), 共产生48幅模糊图像. 该数据集是由相机记录的六维自由度运动轨迹合成的非均匀模糊数据集. 在Kohler数据集实验中, 将本文的算法与Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]提出的算法进行比较, 本文算法的正则化参数设置为$\lambda_s = 0.0008$, $\lambda_g = 0.002$, $\lambda_h= 0.0003N.$该数据集中的模糊图像是由真实记录的三维空间运动轨迹而合成的, 属于非均匀模糊, 上述算法均利用线性卷积模型对非均匀模糊进行近似建模. 为了公平比较, 本文的算法也根据模糊程度的不同, 将初始模糊核尺寸设置为$21\times21$$151\times151$不等. Pan等[13]、Yan等[14]、常振春等[15]和Chen等[16]的结果均是由作者本人提供. 通过比较每一幅图像的去模糊结果与沿着相机运动轨迹捕获的199 个未模糊图像的峰值信噪比(Peak signal-to-noise ratio, PSNR), 将最大的PSNR作为定量评估的指标. 复原图像与真值图像之间的PSNR越大, 表明复原图像与真值图像越接近.

    图6比较了各个算法在Kohler数据集上PSNR的均值及标准差. 从图中可以看出, 本文的算法在四幅图像上的平均PSNR均高于常振春等[15]的去模糊结果; 在后两幅图像上的平均PSNR高于Pan等[13]的结果, 在第四幅图像上的平均PSNR高于Yan等[14]和Chen等[16]的结果. 该数据集中的前3幅图像含有足够多的暗像素, 符合Pan等[13]所提出的暗通道先验, 本文的算法在Kohler数据集上达到了与Pan等[13]方法相当的结果. 该方法对于缺乏暗像素的情况会失效, Yan等[14]提出了亮通道先验, 并结合暗通道先验共同建模图像先验, 提高了PSNR. 尽管Yan等[14]和Chen等[16]方法在Kohler数据集上获得了更高的PSNR, 然而他们的方法恢复细节的能力仍有限. 由于该数据集是对印刷照片进行成像, 图像较为平滑, 并不能很好地用于评价算法对细节的恢复能力. 此外, 从图中的垂直误差条可见, 本文算法在各幅图像上均取得最小的标准差, 说明本文算法具有更好的鲁棒性.

    图 6  Kohler数据集PSNR的平均值与标准差
    Fig. 6  Mean and standard deviation of PSNR on Kohler dataset

    图7图8给出各个算法在Kohler数据集中两幅图像上的复原结果, 图像中左上角为各算法估计出的模糊核. 对于图7(a)所示的小模糊图像, 图7(b) ~ 7(f)分别为Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]以及本文算法的去模糊结果, 图像的下方为局部区域的细节放大图. 图7(b) ~ 7(f)与真值图像之间的PSNR依次为$29.31$, $29.74$, $28.95$, $29.54$$31.53$. 从细节放大图中可以看出, 常振春等[15]的复原结果中产生了一定程度的噪声, Pan等[13]、Yan等[14]和Chen等[16]的方法在某些区域缺乏对细节的恢复, 本文的算法能够更好地恢复图像的细节. 大尺寸模糊核更难估计, 对于图8(a)所示的大模糊图像, 图8(b) ~ 8(f)分别为Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]以及本文算法的去模糊结果, 它们与真值图像的PSNR依次为22.30, 22.32, 22.94, 22.37和27.51. 根据去模糊图像和真值图像之间的PSNR, 本文算法在这两幅图像上估计出更准确的模糊核, 复原图像更接近真值图像; 根据视觉效果, 本文算法能够恢复出更多的细节且失真更小.

    图 7  各个算法对Kohler数据集中一幅小模糊图像复原结果的比较
    Fig. 7  Comparison of the results deblurred by some state-of-the-art methods on a weakly blurred image from Kohler dataset
    图 8  各个算法对Kohler数据集中一幅大模糊图像复原结果的比较
    Fig. 8  Comparison of the results deblurred by some state-of-the-art methods on a severely blurred image from Kohler dataset

    本文的算法没有对噪声进行特殊处理, 利用低秩模型对跨尺度相似图像块组进行整体约束, 使得算法具有一定的抗噪能力. 本文在Kohler数据集中加入了标准差为0.01的高斯噪声模拟模糊有噪图像. 在加噪Kohler数据集实验中, 将本文的算法与Pan等[13]、Yan等[14]、常振春等[15]和Chen等[16]的算法进行比较, 本文的算法将正则化参数设置为$\lambda_s = 0.0008$, $\lambda_g = 0.002$, $\lambda_h = 0.0003N.$Pan等[13]、Yan等[14]、常振春等[15]和Chen等[16]的结果均由作者提供的程序运行得到. 图9给出了各算法在加噪Kohler数据集上PSNR的均值及标准差, 由图中可见, 与Pan等[13]、Yan等[14]、常振春等[15]和Chen等[16]算法相比, 本文算法在各幅图像中均取得了最高的平均PSNR及最小的标准差, 充分说明本文算法对噪声具有很好的鲁棒性.

    图 9  加噪Kohler数据集PSNR的平均值与标准差
    Fig. 9  Mean and standard deviation of PSNR on noisy Kohler dataset

    图10图11比较了各个算法在加噪Kohler数据集中两幅图像上的复原结果. 对于图(a)所示的模糊有噪图像, 图(b) ~ (f)分别为各个算法的去模糊结果. 计算去模糊图像与真值图像之间的PSNR, 在图10中Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]以及本文算法PSNR依次为$19.95$, $17.11$, $21.60$, 16.38和$26.85$, 在图11中PSNR依次为$24.72$, 24.80, 27.51, $24.79$$28.23$. 由图10可见, 由于噪声的干扰, Pan等[13]、Yan等[14]、常振春等[15]和Chen等[16]算法都无法准确地估计出模糊核, 进而无法复原出清晰的结果, 本文算法能够准确地复原出图像的边缘和细节, 获得清晰的复原图像. 本文算法在这两幅图像上均取得了最高的PSNR均值, 表明更接近真值图像, 并且展现了更好的视觉效果.

    图 10  各个算法对加噪Kohler数据集中一幅图像复原结果的比较
    Fig. 10  Comparison of the results deblurred by some state-of-the-art methods on a blurred-noisy image from noisy Kohler dataset
    图 11  各个算法对加噪Kohler数据集中另一幅图像复原结果的比较
    Fig. 11  Comparison of the results deblurred by some state-of-the-art methods on another blurred-noisy image from noisy Kohler dataset

    在真实模糊图像实验中, 将本文的算法与Michaeli等[10]、Perrone等[9]、常振春等[15]、Pan等[13]、Yan等[14]和Chen等[16]的算法进行比较, 本文算法的正则化参数设置为$\lambda_s = 0.004$, $\lambda_g = 0.006$, $\lambda_h = $$ 0.003N.$Michaeli等[10]、Pan等[13]、Yan等[14]、Chen等[16]的结果均是由作者提供的程序运行得到, Perrone等[9]、常振春等[15]的复原结果由作者直接提供. 真实模糊图像一般为非均匀模糊, 上述算法均利用线性卷积模型对非均匀模糊进行近似建模.

    图12图13比较了各个算法在两幅真实模糊图像上的复原结果, 对于图(a)所示真实模糊图像, 图(b) ~ (h)为各个算法的复原结果, 图像左上角为估计的模糊核, 图像下方为图像中局部区域的细节图. 从这些细节区域以及整体复原结果可以看出本文的算法在有效减少振铃效应的同时, 能够很好地恢复出图像的细节, 使边缘更加清晰.

    图 12  各个算法对一幅真实模糊图像复原结果的比较
    Fig. 12  Visual comparisons with some state-of-the-art methods on one real-world photo
    图 13  各个算法对另一幅真实模糊图像复原结果的比较
    Fig. 13  Visual comparisons with some state-of-the-art methods on another real-world photo

    在真实模糊有噪图像实验中, 将本文的算法与Michaeli等[10]、Perrone等[9]、Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]的算法进行比较, 本文算法的正则化参数设置为$\lambda_s = 0.004$, $\lambda_g = 0.006$, $\lambda_h = $$ 0.003N.$Michaeli等[10]、Perrone等[9]、Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]的结果均是由作者提供的程序运行得到.

    图14图15比较了各个算法在两幅真实模糊有噪图像上的复原结果. 图(a)为在低光照环境中获取的真实图像, 当光线不充足时图像容易产生噪声, 图14(b) ~ 14(h)分别为Michaeli等[10]、Perrone等[9]、Pan等[13]、Yan等[14]、常振春等[15]、Chen等[16]以及本文算法的去模糊结果, 图15(b) ~ 15(f)分别为Perrone等[9]、Pan等[13]、Yan等[14]、Chen等[16]以及本文算法的去模糊结果, 在图像的左上角为各个算法估计的模糊核, 在每幅图像的下方是局部区域的细节图. 由图中可见, 本文算法很大程度上减小了振铃效应和噪声的影响, 恢复出更加清晰的结果. 特别地, 从图14的细节放大图可以看出, Perrone等[9]、Pan等[13]、Yan等[14]、常振春等[15]的复原结果均放大了噪声并且存在明显的振铃效应, Michaeli等[10]、Chen等[16]减小了振铃效应, 但复原结果仍存在噪声放大的情况. 可见, 本文算法对于噪声具有良好的鲁棒性.

    图 14  各个算法在一幅真实模糊有噪图像上的实验结果
    Fig. 14  Visual comparisons with state-of-the-art some methods on a real blurred-noisy image
    图 15  各个算法在另一幅真实模糊有噪图像上的实验结果
    Fig. 15  Visual comparisons with some state-of-the-art methods on another real blurred-noisy image

    本节对跨尺度低秩先验的有效性和局限性进行分析和讨论.

    本文通过在大量图像上对图像跨尺度自相似性的统计分析来验证跨尺度低秩先验的有效性. 在本实验中, 从Sun等[27]数据集提供的80幅清晰图像中抽取尺寸为$5\times5$的细节块, 对于每一个细节块, 在降采样图像中搜索$m$个相似图像块, 降采样因子$a$分别设置为$4/3$$5/3$$2$, 降采样图像的尺度分别为原来的0.75、0.6和0.5倍. 采用均方误差(Mean squared difference, MSD)度量图像块之间的相似性, ${\rm{MSD}}$的数值越小, 表明图像块之间的相似性越强. 设清晰图像${\boldsymbol{x}}$中抽取的图像块为${\boldsymbol{Q}}_j {\boldsymbol{x}}$, 在其降采样图像${\boldsymbol{x}}^a$中搜索相似图像块${\boldsymbol{R}}_i {\boldsymbol{x}}^a,i = 1,\cdots,m$, 则清晰图像的跨尺度自相似性用均方误差度量可表示为

    $${{MSD}}({\boldsymbol{x}},{\boldsymbol{x}}^a) = \frac{1}{N_t}\sum\limits_j\Vert{\boldsymbol{Q}}_j{\boldsymbol{x}}-\frac{1}{m}\sum\limits_i{\boldsymbol{R}}_i{\boldsymbol{x}}^{a}\Vert_2^2$$ (23)

    其中, $N_t$为图像中细节块的个数, $m$为相似图像块的个数. 对于每一个细节块自适应地搜索$m$个相似图像块, 然后计算$m$个相似图像块的均值. 根据式(8)计算自适应阈值, 其中, 控制系数$\gamma$值越大, 阈值$\delta_d$越大, 选取该细节块的相似图像块个数越多, 这里设置相似块搜索个数的下限$\Delta_l = 1,$上限$\Delta_h = 5,$$m$满足$1\le m\le 5.$由于各幅图像中通过边缘检测确定的细节块个数不同, 因此, 对于每幅图像利用均方误差来度量相似性. 同理, ${{MSD}}({\boldsymbol{x}},{\boldsymbol{y}})$度量清晰图像与模糊图像的相似性, ${{MSD}}({\boldsymbol{x}},{\boldsymbol{y}}^a)$度量清晰图像与降采样模糊图像的相似性, ${{MSD}}({\boldsymbol{y}}, {\boldsymbol{y}}^a)$度量模糊图像的跨尺度自相似性. 对于Sun数据集中的每幅图像各自计算均方误差, 然后统计所有图像(80 幅图像)的均方误差之和.

    图16展示了降采样因子$a$$4/3$$5/3$$2$, 控制系数$\gamma$为1、1.5、2和2.5时80幅图像的均方误差之和, 图中, 横坐标为控制系数$\gamma$, 纵坐标为均方误差之和. 图16(a)比较了模糊图像${\boldsymbol{y}}$及其降采样图像${\boldsymbol{y}}^a$与清晰图像${\boldsymbol{x}}$的相似性, 图中实线表示清晰图像与降采样模糊图像之间的相似性, 虚线表示清晰图像与模糊图像之间的相似性, 由图中可见, 选取适合的参数可以保证${{MSD}}({\boldsymbol{x}},{\boldsymbol{y}}^a) < {{MSD}}({\boldsymbol{x}},{\boldsymbol{y}})$, 说明降采样模糊图像相比于模糊图像本身与清晰图像具有更强的相似性. 图16(b)比较了清晰图像${\boldsymbol{x}}$和模糊图像${\boldsymbol{y}}$的跨尺度自相似性, 图中实线表示清晰图像的跨尺度自相似性, 虚线表示模糊图像的跨尺度自相似性, 由图中可见${{MSD}}({\boldsymbol{x}},{\boldsymbol{x}}^a) < {{MSD}}({\boldsymbol{y}}, {\boldsymbol{y}}^a)$, 说明清晰图像比模糊图像具有更强的跨尺度自相似性. 根据上述的统计实验可得出结论, 本文提出的基于图像跨尺度自相似性的低秩先验模型能够使目标函数的解偏向于清晰图像而不是模糊图像, 同时, 降采样图像能够为图像复原提供附加的结构信息, 通过对跨尺度相似图像块组的低秩约束能够迫使重建图像更加接近清晰图像. 此外, 从图16中还可以看出跨尺度自相似性与图像尺度的关系, 随着降采样因子的增大, 图像的跨尺度自相似性减弱, 因此, 本文的算法参照Michaeli等[10]将降采样因子$a$设置为$4/3$.

    图 16  图像跨尺度自相似性的分析
    Fig. 16  Analysis of cross-scale self-similarity of images

    本文提出的跨尺度低秩先验依赖于跨尺度相似图像块的冗余性. 自然图像中跨尺度相似图像块越多, 它们之间的相关性能够提供更充分的附加信息, 则该先验的鲁棒性越强. 对于自相似性较弱的图像, 由于仅能搜索少量的相似图像块, 其复原能力受到了一定的限制.

    图17展示了本文的算法在Sun等[27]数据集中三幅自相似性较弱图像上的复原结果, 图17(a)为模糊图像, 图17(b)为真值图像, 图17(c)为Cho等[3]、Xu等[4]和Levin等[6]算法的复原结果, 图17(d)为本文算法的复原结果, 图像左上角为估计的模糊核. 通过观察模糊核以及复原结果可以看出, 本文的算法并没有准确地估计出模糊核, 导致无法完全去除图像中的模糊或产生halo效应. 但是, 跨尺度低秩先验是一种鲁棒的先验模型, 对于不同的模糊核或图像内容, 本文的算法能够获得较为稳定的复原结果. 当模糊核或图像内容不符合先验假设时, 部分算法的复原结果会产生较大的波动, 如图17(c)所示的失效图例产生明显的振铃效应, 而本文的算法即使对于自相似性较弱的图像, 依然能够达到一定的去模糊效果, 不会产生明显的振铃效应.

    图 17  本文算法对Sun数据集中三幅自相似性较弱图像的复原结果
    Fig. 17  Visual display of proposed method on three weak self-similarity blurred images from Sun dataset

    由于跨尺度自相似性普遍存在于自然图像中, 本文提出了一种跨尺度低秩先验模型, 在当前估计的降采样图像中搜索相似图像块构成相似图像块组, 对相似图像块组构造低秩约束正则项, 加入到目标函数中, 使目标函数的解偏向于清晰图像. 在金字塔的逐层迭代中, 通过对跨尺度相似图像块组进行低秩约束, 迫使当前估计的清晰图像边缘越来越清晰, 细节越来越丰富. 在大量模糊图像以及模糊有噪图像上的实验验证了本文算法的有效性. 本文的算法没有对噪声进行特殊处理, 由于低秩约束很好地表示了数据的全局结构特性, 因此对噪声具有良好的鲁棒性, 能够从大模糊有噪图像中有效地估计出模糊核.

  • 图  1  不同视角下及遮挡场景下的行人图像

    Fig.  1  Pedestrian images in different viewpoints and occlusion scenes

    图  2  4类基于局部特征的行人重识别方法文献统计

    Fig.  2  Literature statistics of four kinds of local feature-based Re-ID methods

    图  3  传统的行人重识别任务执行流程

    Fig.  3  The pipline of traditional Re-ID task

    图  4  行人重识别发展中的关键技术

    Fig.  4  Key technologies in the development of Re-ID

    图  5  多分支融合姿态信息的SpindleNet网络流程图

    Fig.  5  The pipeline of SpindleNet which fusions pose information with multiple branches

    图  6  水平分割特征图的PCB网络

    Fig.  6  The PCB network which partitions feature map horizontally

    图  7  视差导致的特征对齐问题

    Fig.  7  The feature misalignment problem caused by parallax

    图  8  不同摄像头采集的行人特征对比示例

    Fig.  8  The comparison of pedestrian feature representation captured by different cameras

    图  9  结合视角估计模型的PSE网络

    Fig.  9  The PSE network which combines viewpoint estimation model

    图  10  空间注意力机制方法工作原理示意图

    Fig.  10  Illustration of spatial attention mechanism

    图  11  通道注意力机制工作原理示意图

    Fig.  11  Illustration of channel attention mechanism

    图  12  MGN中不同分支的特征可视化结果

    Fig.  12  The feature visualization results of the different branch of MGN

    表  1  行人重识别主流数据集

    Table  1  Mainstream Re-ID dataset

    库名发布机构样本描述类型示例
    VIPeR (2008)加州大学圣克鲁兹分校632 个行人, 1264 幅行人图像单帧数据集
    PRID2011 (2011)格拉茨技术大学934 个行人, 24541 帧行人图像,视频数据集
    Partial-iLIDS (2011)伦敦玛丽女王大学119 个行人, 238 幅行人图像单帧遮挡数据集
    iLIDS-VID (2014)伦敦玛丽女王大学300 个行人, 42495 帧行人图像视频数据集
    Duke MTMC-reID (2014)杜克大学1812 个行人, 36441 幅行人图像单帧数据集
    Partial-ReID (2015)中山大学60 个行人, 600 帧行人图像,单帧遮挡数据集
    Market-1501 (2015)清华大学1501 个行人, 33217 幅行人图像单帧数据集
    MARS (2016)悉尼大学1261 个行人, 1191003 帧行人图像视频数据集
    CHUK03 (2017)香港中文大学1467 个行人, 13164 幅行人图像单帧数据集
    MSMT17 (2018)北京大学4101 个行人, 126441 幅行人图像单帧数据集
    下载: 导出CSV

    表  2  基于姿势估计的方法总结 (rank-1为原论文在Market-1501上的实验结果)

    Table  2  Summary of pose estimation based methods (rank-1 refers to the result of original paper on Market-1501)

    文献来源方法名称基础网络或主要方法方法类型姿态估计rank-1 (%)主要工作概述
    模型关键点数目
    [5]CVPR10SDALF颜色相关图, 颜色矩手工特征设计颜色直方图等手工特征提取人体对称轴附近的局部信息.
    [34]CVPR17SpindleNetGoogleNet深度学习CPM1491.5人体关键点定位人体部件ROI, 与行人特征级联融合生成鉴别性更强的特征.
    [35]Arxiv17PIEResNet50深度学习CPM1478.6双层全连接层提取人体部件判别向量, 指导姿态估计模型精确提取关键点.
    [36]ICCV19PGFAResnet50深度学习AlphaPose1891.2利用姿态估计模型对遮挡的敏感性预测遮挡区域, 降低遮挡对模型判别的影响.
    [38]CVPR18Pose-transferCGANGANHPE1887.6引入姿态估计模型定位人体结构, 优化GAN模型对人体形态的构建.
    [39]CVPR19PATNCGANGANOpenPose18采用双判别器分别改善图像质量及姿态形体, 提升生成图像的真实感.
    下载: 导出CSV

    表  3  基于特征空间分割的方法总结(rank-1为原论文在Market-1501上的实验结果)

    Table  3  Summary of feature spatial partition based methods (rank-1 refers to the result of original paper on Market-1501)

    文献来源方法名称基础网络损失函数分割数目统计rank-1 (%)主要工作概述
    全局特征局部特征
    [17]ICCV18PCBResNet50交叉熵损失0693.8提出水平分割卷积特征, 提取细粒度的局部特征.
    [47, 53]ACM19MGNResNet50交叉熵损失
    三元损失
    3595.7多粒度网络, 结合粗粒度的全局特征及细粒度的局部特征, 使用多损失联合训练.
    [49]CVPR19PyramidalResNet50交叉熵损失
    三元损失
    12095.7构建金字塔结构, 在分割特征的同时保留特征间的上下文关系.
    [50]PR19AlignedReIDResNet50交叉熵损失
    三元损失
    1791.8设计了一种动态规划算法, 优先匹配相似度更高的局部特征, 减少了特征对齐误差.
    [51]CVPR19VPMResNet50交叉熵损失
    三元损失
    0393.0预定义分割区域, 使特征分割模型更稳定的提取部件特征.
    [52]ICCV19SSGResNet50交叉熵损失
    三元损失
    0386.2与无监督学习结合, 将每个分割区域作为一类聚类中心, 构建目标域与原域的细粒度相关性.
    下载: 导出CSV

    表  4  基于视角信息的方法总结

    Table  4  Summary of viewpoint based methods

    文献来源基础网络或主要方法方法名称损失函数方法类型主要工作概述
    [54]CVPR19PCBPsrsonX交叉熵损失深度学习提出了一个3D行人数据集, 定量探讨了视角特征对行人重识别任务的影响.
    [55]AVSS14坐标仿射变换TA + MS + W特征手工特征挖掘人体对称性特征、角度特征, 利用仿射变换对齐图像.
    [57]TPAMI14角度描述符VIH手工特征多视图构建角度描述符, 预测固定摄像头下行人姿态变化情况.
    [59]BMVC17GoogleNetVeSPA交叉熵损失深度学习基于行人属性集的视角标注, 训练了一个分类模型, 可预测行人视角概率.
    [60]CVPR18ResNet50PSE交叉熵损失深度学习将VeSPA模型用于行人重识别任务, 结合视角概率值生成鉴别特征.
    下载: 导出CSV

    表  5  基于注意力机制的方法总结(rank-1为原论文在Market-1501上的实验结果)

    Table  5  Summary of attention based methods (rank-1 refers to the result of original paper on Market-1501)

    文献来源方法名称基础网络实现方法损失函数方法类型rank-1 (%)主要工作概述
    [61]CVPR17DLPARGoogleNet多分支的$1\times1$卷积层三元损失空间注意力64.2利用多个注意力模块作用到不同的人体部件, 多分支提取鉴别性特征.
    [62]CVPR18MGCAMMGCAN全卷积网络[69]交叉熵损失
    三元损失
    空间注意力83.7结合背景分割, 提取二值化轮廓图作为注意力图, 降低杂乱背景的干扰.
    [65]CVPR18HA-CNNCNNSER结构结合多层卷积交叉熵损失空间注意力
    通道注意力
    91.2融合空间注意力学习与通道注意力, 同时学习平面像素特征与通道尺度特征.
    [66]ICCV19ABD-NetResNet50Softmax层加权特征矩阵交叉熵损失
    三元损失
    空间注意力
    通道注意力
    95.6利用 softmax 的分类特性, 加强通道特征间的相关性.
    [68]ICCV19BDBNetResNet50DropBlock[70]层改进交叉熵损失
    三元损失
    非卷积方法95.3特征正则化, 将随机擦除作用到特征学习, 可有效抑制过拟合.
    下载: 导出CSV

    表  6  DukeMTMC-ReID数据集上各种方法的对比结果 (%)

    Table  6  Experimental results of various methods on DukeMTMC-ReID dataset (%)

    方法类型rank-1mAP
    XQDA + LOMO[10] (2015)手工特征30.717.0
    UMDL[73] (2016)无监督 + 手工特征30.016.4
    SPGAN[74] (2018)无监督 + GAN46.926.4
    PAN[1] (2017)全局特征71.551.5
    Pose-transfer[38] (2018)姿势提取78.556.9
    MGN[47] (2018)特征空间分割88.778.4
    Pyramidal[49] (2019)特征空间分割89.079.0
    PSE[60] (2018)视角信息79.862.0
    HA-CNN[65] (2018)注意力机制80.563.8
    下载: 导出CSV

    表  7  Market-1501数据集上各种方法的对比结果 (%)

    Table  7  Experimental results of various methods on Market-1501 dataset (%)

    方法类型rank-1mAP
    XQDA + LOMO[10] (2015)手工特征43.822.2
    UMDL[73] (2016)无监督 + 手工特征34.512.4
    SPGAN[74] (2018)无监督 + GAN58.126.9
    SOMAne[3] (2017)全局特征73.947.9
    Spindle[34] (2017)姿势提取76.9
    Pose-transfer[38] (2018)姿势提取87.668.9
    PCB[17] (2018)特征空间分割92.377.4
    MGN[47] (2018)特征空间分割95.786.9
    Pyramidal[49] (2019)特征空间分割95.788.2
    PSE[60] (2018)视角信息87.769.0
    HA-CNN[65] (2018)注意力机制91.275.7
    ABD-Net[66] (2019)注意力机制95.688.2
    下载: 导出CSV

    表  8  CUHK03数据集上各种方法的对比结果 (%)

    Table  8  Experimental results of various methods on CUHK dataset (%)

    方法类型rank-1mAP
    XQDA + LOMO[10] (2015)手工特征12.811.5
    PAN[1] (2019)全局特征36.334.0
    Pose-transfer[38] (2018)姿势提取41.638.7
    PCB[17] (2018)特征空间分割61.354.2
    MGN[47] (2018)特征空间分割66.866.0
    HA-CNN[65] (2018)注意力机制41.738.6
    下载: 导出CSV

    表  9  各类局部特征方法比较

    Table  9  Comparison of various local feature methods

    方法类型对应文献特征学习特点影响性能的主要因素
    姿势估计[5, 29-39]在特征学习的过程中融合准确的关键点特征, 以学习更具鉴别性的特征, 或利用关键点处理人体定位对齐、遮挡问题.姿态估计模型对人体关键点的检测精度、特征融合方法的有效性. 姿态估计数据集与行人重识别数据集具有较大偏差, 造成姿态估计模型在行人重识别任务中的语义分割效果不佳.
    特征空间分割[15, 47-52]对卷积层的特征进行均匀分割, 生成的每一块特征都由单独的损失函数约束训练输入数据的复杂程度, 特征分割区域的稳定性, 易受局部特征对齐问题的影响, 依赖质量较高的数据.
    视角信息[54-60]需要准确的视角信息. 常利用视角信息对不同视角的图像进行仿射变换以对齐图像视角, 或融合视角信息增加特征的鉴别性.视角信息的准确性, 目前没有专门增对视角特征的研究领域且相关数据集较少, 视角估计模型的准确度还有待提升.
    注意力机制[61-68]学习由卷积计算生成的显著性区域, 在训练过程中提高相关程度较高区域的权重, 同时降低相关程度较低区域的权重.注意力选择的有效性及多样性, 相关的工作表明结合多类注意力机制能够获得更好鉴别性特征.
    下载: 导出CSV

    表  10  DukeMTMC-reID上融合多类局部特征方法的实验结果 (%)

    Table  10  Experimental results of the multiple-local feature fusion methods on DukeMTMC-reID (%)

    方法文献出处类型描述rank-1mAP
    原始数据遮挡处理原始数据遮挡处理
    PCB[17]ECCV 2018特征空间分割81.942.665.333.7
    PGFA[36]ICCV 2019特征空间分割+姿势估计82.651.465.537.3
    ${\rm{P}}^2$-Net[75]ICCV 2019特征根据分割+注意力机制86.573.1
    下载: 导出CSV
  • [1] Zheng Z D, Zheng L, Yang Y. Pedestrian alignment network for large-scale person re-identification. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(10): 3037-3045 doi: 10.1109/TCSVT.2018.2873599
    [2] Chen H R, Wang Y W, Shi Y M, Yan K, Geng M Y, Tian Y H, et al. Deep transfer learning for person re-identification. In: Proceedings of the 4th International Conference on Multimedia Big Data (BigMM). Xi'an, China: IEEE, 2018. 1−5
    [3] Barbosa I B, Cristani M, Caputo B, Rognhaugen A, Theoharis T. Looking beyond appearances: Synthetic training data for deep CNNs in re-identification. Computer Vision and Image Understanding, 2018, 167: 50-62 doi: 10.1016/j.cviu.2017.12.002
    [4] Gray D, Tao H. Viewpoint invariant pedestrian recognition with an ensemble of localized features. In: Proceedings of the 10th European Conference on Computer Vision. Marseille, France: Springer, 2008. 262−275
    [5] Farenzena M, Bazzani L, Perina A, Murino V, Cristani M. Person re-identification by symmetry-driven accumulation of local features. In: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010. 2360−2367
    [6] Bazzani L, Cristani M, Murino V. Symmetry-driven accumulation of local features for human characterization and re-identification. Computer Vision and Image Understanding, 2013, 117(2): 130-144 doi: 10.1016/j.cviu.2012.10.008
    [7] Lowe D G. Object recognition from local scale-invariant features. In: Proceedings of the 7th IEEE International Conference on Computer Vision. Kerkyra, Greece: IEEE, 1999. 1150−1157
    [8] Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). San Diego, USA: IEEE, 2005. 886−893
    [9] 齐美彬, 檀胜顺, 王运侠, 刘皓, 蒋建国. 基于多特征子空间与核学习的行人再识别. 自动化学报, 2016, 42(2): 229-308

    Qi Mei-Bin, Tan Sheng-Shun, Wang Yun-Xia, Liu Hao, Jiang Jian-Guo. Multi-feature subspace and kernel learning for person re-identification. Acta Automatica Sinica, 2016, 42(2): 229-308
    [10] Liao S C, Hu Y, Zhu X Y, Li S Z. Person re-identification by local maximal occurrence representation and metric learning. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 2197−2206
    [11] Köstinger M, Hirzer M, Wohlhart P, Both P M, Bischof H. Large scale metric learning from equivalence constraints. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012. 2288−2295
    [12] Huang T, Russell S. Object identification in a Bayesian context. In: Proceedings of the 15th International Joint Conference on Artifical Intelligence. San Francisco, USA: Morgan Kaufmann Publishers Inc., 1997. 1276−1282
    [13] Zajdel W, Zivkovic Z, Krose B J A. Keeping track of humans: Have I seen this person before? In: Proceedings of the 2005 IEEE International Conference on Robotics and Automation. Barcelona, Spain: IEEE, 2005. 2081−2086
    [14] Gray D, Brennan S, Tao H. Evaluating appearance models for recognition, reacquisition, and tracking. In: Proceedings of the 10th IEEE International Workshop on Performance Evaluation of Tracking and Surveillance (PETS). Rio de Janeiro, Brazil: IEEE, 2007. 1−7
    [15] Li W, Zhao R, Xiao T, Wang X G. DeepReID: Deep filter pairing neural network for person re-identification. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014. 152−159
    [16] Zheng Z D, Zheng L, Yang Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 3774-3782
    [17] Sun Y F, Zheng L, Yang Y, Tian Q, Wang S J. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline). In: Proceedings of the 15th European Conference on Computer Vision (ECCV 2018). Munich, Germany: Springer, 2018. 501−518
    [18] Yu H X, Zheng W S, Wu A C, Guo X W, Gong S G, Lai J H. Unsupervised person re-identification by soft multilabel learning. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 2143−2152
    [19] Wu A C, Zheng W S, Lai J H. Unsupervised person re-identification by camera-aware similarity consistency learning. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 6921−6930
    [20] Zheng X Y, Cao J W, Shen C H, You M Y. Self-training with progressive augmentation for unsupervised cross-domain person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 8221−8230
    [21] Zheng L, Shen L Y, Tian L, Wang S J, Wang J D, Tian Q. Scalable person re-identification: A benchmark. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1116−1124
    [22] Ristani E, Solera F, Zou R, Cucchiara R, Tomasi C. Performance measures and a data set for multi-target, multi-camera tracking. In: Proceedings of the 2016 European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 17−35
    [23] Wei L H, Zhang S L, Gao W, Tian Q. Person transfer GAN to bridge domain gap for person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 79−88
    [24] Zheng L, Bie Z, Sun Y F, Wang J D, Su C, Wang S J, et al. MARS: A video benchmark for large-scale person re-identification. In: Proceedings of the 14th European Conference on Computer Vision (ECCV 2016). Amsterdam, The Netherlands: Springer, 2016. 868−884
    [25] Wang T Q, Gong S G, Zhu X T, Wang S J. Person re-identification by video ranking. In: Proceedings of the 13th European Conference on Computer Vision (ECCV 2014). Zurich, Switzerland: Springer, 2014. 688−703
    [26] Hirzer M, Beleznai C, Roth P M, Bischof H. Person re-identification by descriptive and discriminative classification. In: Proceedings of the 17th Scandinavian Conference on Image Analysis. Ystad, Sweden: Springer, 2011. 91−102
    [27] Zheng W S, Li X, Xiang T, Liao S C, Lai J H, Gong S G. Partial person re-identification. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 4678−4686
    [28] Zheng W S, Gong S G, Xiang T. Person re-identification by probabilistic relative distance comparison. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2011). Colorado Springs, USA: IEEE, 2011. 649−656
    [29] Cheng D S, Cristani M, Stoppa M, Bazzani L, Murino V. Custom pictorial structures for re-identification. In: Proceedings of the 22nd British Machine Vision Conference. Dundee, UK: BMVA Press, 2011. 1−11
    [30] Cho Y J, Yoon K J. Improving person re-identification via pose-aware multi-shot matching. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1354−1362
    [31] Toshev A, Szegedy C. DeepPose: Human pose estimation via deep neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014. 1653−1660
    [32] Xiao B, Wu H P, Wei Y C. Simple baselines for human pose estimation and tracking. In: Proceedings of the 15th European Conference on Computer Vision (ECCV 2018). Munich, Germany: Springer, 2018. 472−487
    [33] Newell A, Yang K Y, Deng J. Stacked hourglass networks for human pose estimation. In: Proceedings of the 14th European Conference on Computer Vision (ECCV 2016). Amsterdam, The Netherlands: Springer, 2016. 483−499
    [34] Zhao H Y, Tian M Q, Sun S Y, Shao J, Yan J J, Yi S, et al. Spindle net: Person re-identification with human body region guided feature decomposition and fusion. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 907−915
    [35] Zheng L, Huang Y J, Lu H C, Yang Y. Pose-invariant embedding for deep person re-identification. IEEE Transactions on Image Processing, 2019, 28(9): 4500-4509 doi: 10.1109/TIP.2019.2910414
    [36] Miao J X, Wu Y, Liu P, Ding Y H, Yang Y. Pose-guided feature alignment for occluded person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 542−551
    [37] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 27th Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014. 2672−2680
    [38] Liu J X, Ni B B, Yan Y C, Zhou P, Cheng S, Hu J G. Pose transferrable person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 4099−4108
    [39] Zhu Z, Huang T T, Shi B G, Yu M, Wang B F, Bai X. Progressive pose attention transfer for person image generation. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 2342−2351
    [40] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, et al. Going deeper with convolutions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 1−9
    [41] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778
    [42] Mirza M, Osindero S. Conditional generative adversarial nets. arXiv preprint arXiv: 1411.1784, 2014.
    [43] Wei S E, Ramakrishna V, Kanade T, Sheikh Y. Convolutional pose machines. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 4724−4732
    [44] Cao Z, Simon T, Wei S E, Sheikh Y. Realtime multi-person 2D pose estimation using part affinity fields. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 1302−1310
    [45] Fang H S, Xie S Q, Tai Y W, Lu C W. RMPE: Regional multi-person pose estimation. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2353−2362
    [46] Cao Z, Hidalgo G, Simon T, Wei S E, Sheikh Y. OpenPose: Realtime multi-person 2D pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(1): 172-186. doi: 10.1109/TPAMI.2019.2929257
    [47] Wang G S, Yuan Y F, Chen X, Li J W, Zhou X. Learning discriminative features with multiple granularities for person re-identification. In: Proceedings of the 26th ACM International Conference on Multimedia. Seoul, Korea (South): ACM, 2018. 274−282
    [48] Cheng D, Gong Y H, Zhou S P, Wang J J, Zheng N N. Person re-identification by multi-channel parts-based CNN with improved triplet loss function. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1335−1344
    [49] Zheng F, Deng C, Sun X, Jiang X Y, Guo X W, Yu Z Q, et al. Pyramidal person re-identification via multi-loss dynamic training. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 8506−8514
    [50] Luo H, Jiang W, Zhang X, Fan X, Qian J J, Zhang C. AlignedReID++: Dynamically matching local information for person re-identification. Pattern Recognition, 2019, 94: 53−61
    [51] Sun Y F, Xu Q, Li Y L, Zhang C, Li Y K, Wang S J, et al. Perceive where to focus: Learning visibility-aware part-level features for partial person re-identification. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 393−402
    [52] Fu Y, Wei Y C, Wang G S, Zhou Y Q, Shi H H, Uiuc U, et al. Self-Similarity grouping: A simple unsupervised cross domain adaptation approach for person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 6111−6120
    [53] Schroff F, Kalenichenko D, Philbin J. FaceNet: A unified embedding for face recognition and clustering. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 815−823
    [54] Sun X X, Zheng L. Dissecting person re-identification from the viewpoint of viewpoint. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 608−617
    [55] Bak S, Zaidenberg S, Boulay B, Brémond F. Improving person re-identification by viewpoint cues. In: Proceedings of the 11th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Seoul, Korea (South): IEEE, 2014. 175−180
    [56] Bialkowski A, Denman S, Sridharan S, Fookes C, Lucey P. A database for person re-identification in multi-camera surveillance networks. In: Proceedings of the 2012 International Conference on Digital Image Computing Techniques and Applications (DICTA). Fremantle, Australia: IEEE, 2012. 1−8
    [57] Wu Z Y, Li Y, Radke R J. Viewpoint invariant human re-identification in camera networks using pose priors and subject-discriminative features. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(5): 1095-1108 doi: 10.1109/TPAMI.2014.2360373
    [58] Li D W, Zhang Z, Chen X T, Huang K Q. A richly annotated pedestrian dataset for person retrieval in real surveillance scenarios. IEEE Transactions on Image Processing, 2018, 28(4): 1575−1590
    [59] Sarfraz M S, Schumann A, Wang Y, Stiefelhagen R. Deep view-sensitive pedestrian attribute inference in an end-to-end model. In: Proceedings of the 2017 British Machine Vision Conference. London, UK: BMVA Press, 2017. 134.1−134.13
    [60] Sarfraz M S, Schumann A, Eberle A, Stiefelhagen R. A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 420−429
    [61] Zhao L M, Li X, Zhuang Y T, Wang J D. Deeply-learned part-aligned representations for person re-identification. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 3239−3248
    [62] Song C F, Huang Y, Ouyang W L, Wang L. Mask-guided con−trastive attention model for person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 1179-1188
    [63] Hu J, Shen L, Sun G. Squeeze-and-excitation networks. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7132−7141
    [64] Nair V, Hinton G E. Rectified linear units improve restricted Boltzmann machines. In: Proceedings of the 27th International Conference on International Conference on Machine Learning. Madison, USA: Omnipress, 2010. 807−814
    [65] Li W, Zhu X T, Gong S G. Harmonious attention network for person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 2285−2294
    [66] Chen T L, Ding S J, Xie J Y, Yuan Y, Chen W Y, Yang Y, et al. ABD-Net: Attentive but diverse person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 8350−8360
    [67] Fu J L, Zheng H L, Mei T. Look closer to see better: Recurrent attention convolutional neural network for fine-grained image recognition. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 4476−4484
    [68] Dai Z X, Chen M Q, Gu X D, Zhu S Y, Tan P. Batch DropBlock network for person re-identification and beyond. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 3690−3700
    [69] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 3431−3440
    [70] Ghiasi G, Lin T Y, Le Q V. DropBlock: A regularization method for convolutional networks. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montreal, Canada: Curran Associates Inc., 2018. 10750−10760
    [71] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks. In: Proceedings of the 13th European Conference on Computer Vision (ECCV 2014). Zurich, Switzerland: Springer, 2014. 818−833
    [72] Zhou B L, Khosla A, Lapedriza A, Oliva A, Torralba A. Learning deep features for discriminative localization. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 2921−2929
    [73] Peng P X, Xiang T, Wang Y W, Pontil M, Gong S G, Huang T J, et al. Unsupervised cross-dataset transfer learning for person re-identification. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1306−1315
    [74] Deng W J, Zheng L, Ye Q X, Kang G L, Yang Y, Jiao J B. Image-image domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 994−1003
    [75] Guo J Y, Yuan Y H, Huang L, Zhang C, Yao J G, Han K. Beyond human parts: Dual part-aligned representations for person re-identification. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 3641−3650
    [76] Selvaraju R R, Cogswell M, Das A, Vedantam R, Parikh D, Batra D. Grad-CAM: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 618−626
    [77] 吴彦丞, 陈鸿昶, 李邵梅, 高超. 基于行人属性先验分布的行人再识别. 自动化学报, 2019, 45(5): 953-964

    Wu Yan-Cheng, Chen Hong-Chang, Li Shao-Mei, Gao Chao. Person re-Identification using attribute priori distribution. Acta Automatica Sinica, 2019, 45(5): 953-964
    [78] Yang Q Z, Wu A C, Zheng W S. Person re-identification by contour sketch under moderate clothing change. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(6): 2029-2046 doi: 10.1109/TPAMI.2019.2960509
    [79] Zhang L B, Huang S L, Liu W, Tao D C. Learning a mixture of granularity-specific experts for fine-grained categorization. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 8330−8339
    [80] Simon M, Rodner E. Neural activation constellations: Unsupervised part model discovery with convolutional networks. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1143−1151
    [81] Xiao T J, Xu Y C, Yang K Y, Zhang J X, Peng Y X, Zhang Z. The application of two-level attention models in deep convolutional neural network for fine-grained image classification. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 842−850
    [82] Yin J H, Wu A C, Zheng W S. Fine-grained person re-identification. International Journal of Computer Vision, 2020, 128(6): 1654-1672 doi: 10.1007/s11263-019-01259-0
  • 加载中
图(12) / 表(10)
计量
  • 文章访问数:  1986
  • HTML全文浏览量:  1560
  • PDF下载量:  626
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-12-03
  • 录用日期:  2020-04-27
  • 网络出版日期:  2021-10-12
  • 刊出日期:  2021-12-23

目录

/

返回文章
返回