姚足 龚勋 陈锐 卢奇 罗彬

Yao Zu, Gong Xun, Chen Rui, Lu Qi, Luo Bin. Research progress, challenge and prospect of local features for person re-identification. Acta Automatica Sinica, 2021, 47(12): 2742−2760 doi: 10.16383/j.aas.c190821
Citation: Yao Zu, Gong Xun, Chen Rui, Lu Qi, Luo Bin. Research progress, challenge and prospect of local features for person re-identification. Acta Automatica Sinica, 2021, 47(12): 2742−2760 doi: 10.16383/j.aas.c190821


基金项目: 国家自然科学基金(61876158), 四川省重点研发项目(2019YFS0432)资助

    姚足:西南交通大学计算机与人工智能学院硕士研究生. 主要研究方向为行人重识别和深度学习.E-mail: yaozu@my.swjtu.edu.cn

    龚勋:西南交通大学计算机与人工智能学院教授. 主要研究方向为图像处理, 模式识别及深度学习. 本文通信作者.E-mail: gongxun@swjtu.edu.cn

    陈锐:西南交通大学计算机与人工智能学院硕士研究生. 主要研究方向为人脸识别和深度学习.E-mail: richard3chen@gmail.com

    卢奇:西南交通大学计算机与人工智能学院硕士研究生. 主要研究方向为人脸识别和深度学习.E-mail: luqi@my.swjtu.edu.cn

    罗彬:西南交通大学计算机与人工智能学院硕士研究生. 主要研究方向为行人重识别和深度学习.E-mail: ansvic@icloud.com

Research Progress, Challenge and Prospect of Local Features for Person Re-Identification

Funds: Supported by National Natural Science Foundation of China (61876158) and Sichuan Science and Technology Program (2019YFS0432)
    YAO Zu Master student at the School of Computing and Artificial Intelligence, Southwest Jiaotong University. His research interest covers person re-identification and deep learning

    GONG Xun Professor at the School of Computing and Artificial Intelligence, Southwest Jiaotong University. His research interest covers medical image processing, pattern recognition, and deep learning. Corresponding author of this paper

    CHEN Rui Master student at the School of Computing and Artificial Intelligence, Southwest Jiaotong University. His research interest covers face recognition and deep learning

    LU Qi Master student at the School of Computing and Artificial Intelligence, Southwest Jiaotong University. His research interest covers face recognition and deep learning

    LUO Bin Master student at the School of Computing and Artificial Intelligence, Southwest Jiaotong University. His research interest covers person re-identification and deep learning

  • 摘要: 行人重识别(Person re-identification, Re-ID)旨在跨区域、跨场景的视频中实现行人的检索及跟踪, 其成果在智能监控、刑事侦查、反恐防暴等领域具有广阔的应用前景. 由于真实场景下的行人图像存在光照差异大、拍摄视角不统一、物体遮挡等问题, 导致从图像整体提取的全局特征易受无关因素的干扰, 识别精度不高. 基于局部特征的方法通过挖掘行人姿态、人体部位、视角特征等关键信息, 可加强模型对人体关键区域的学习, 降低无关因素的干扰, 从而克服全局特征的缺陷, 也因此成为近几年的研究热点. 本文对近年基于局部特征的行人重识别文献进行梳理, 简述了行人重识别的发展历程, 将基于局部特征的方法归纳为基于姿势提取、基于特征空间分割、基于视角信息、基于注意力机制四类, 并详细阐述了每一类的原理及优缺点. 然后在三个主流行人数据集上对典型方法的识别性能进行了分析比较, 最后总结了目前基于局部特征算法的难点, 并对未来本领域的研究趋势和发展方向进行展望.
  • 图  1  不同视角下及遮挡场景下的行人图像

    Fig.  1  Pedestrian images in different viewpoints and occlusion scenes

    图  2  4类基于局部特征的行人重识别方法文献统计

    Fig.  2  Literature statistics of four kinds of local feature-based Re-ID methods

    图  3  传统的行人重识别任务执行流程

    Fig.  3  The pipline of traditional Re-ID task

    图  4  行人重识别发展中的关键技术

    Fig.  4  Key technologies in the development of Re-ID

    图  5  多分支融合姿态信息的SpindleNet网络流程图

    Fig.  5  The pipeline of SpindleNet which fusions pose information with multiple branches

    图  6  水平分割特征图的PCB网络

    Fig.  6  The PCB network which partitions feature map horizontally

    图  7  视差导致的特征对齐问题

    Fig.  7  The feature misalignment problem caused by parallax

    图  8  不同摄像头采集的行人特征对比示例

    Fig.  8  The comparison of pedestrian feature representation captured by different cameras

    图  9  结合视角估计模型的PSE网络

    Fig.  9  The PSE network which combines viewpoint estimation model

    图  10  空间注意力机制方法工作原理示意图

    Fig.  10  Illustration of spatial attention mechanism

    图  11  通道注意力机制工作原理示意图

    Fig.  11  Illustration of channel attention mechanism

    图  12  MGN中不同分支的特征可视化结果

    Fig.  12  The feature visualization results of the different branch of MGN

    表  1  行人重识别主流数据集

    Table  1  Mainstream Re-ID dataset

    VIPeR (2008)加州大学圣克鲁兹分校632 个行人, 1264 幅行人图像单帧数据集
    PRID2011 (2011)格拉茨技术大学934 个行人, 24541 帧行人图像,视频数据集
    Partial-iLIDS (2011)伦敦玛丽女王大学119 个行人, 238 幅行人图像单帧遮挡数据集
    iLIDS-VID (2014)伦敦玛丽女王大学300 个行人, 42495 帧行人图像视频数据集
    Duke MTMC-reID (2014)杜克大学1812 个行人, 36441 幅行人图像单帧数据集
    Partial-ReID (2015)中山大学60 个行人, 600 帧行人图像,单帧遮挡数据集
    Market-1501 (2015)清华大学1501 个行人, 33217 幅行人图像单帧数据集
    MARS (2016)悉尼大学1261 个行人, 1191003 帧行人图像视频数据集
    CHUK03 (2017)香港中文大学1467 个行人, 13164 幅行人图像单帧数据集
    MSMT17 (2018)北京大学4101 个行人, 126441 幅行人图像单帧数据集
    表  2  基于姿势估计的方法总结 (rank-1为原论文在Market-1501上的实验结果)

    Table  2  Summary of pose estimation based methods (rank-1 refers to the result of original paper on Market-1501)

    文献来源方法名称基础网络或主要方法方法类型姿态估计rank-1 (%)主要工作概述
    [5]CVPR10SDALF颜色相关图, 颜色矩手工特征设计颜色直方图等手工特征提取人体对称轴附近的局部信息.
    [34]CVPR17SpindleNetGoogleNet深度学习CPM1491.5人体关键点定位人体部件ROI, 与行人特征级联融合生成鉴别性更强的特征.
    [35]Arxiv17PIEResNet50深度学习CPM1478.6双层全连接层提取人体部件判别向量, 指导姿态估计模型精确提取关键点.
    [36]ICCV19PGFAResnet50深度学习AlphaPose1891.2利用姿态估计模型对遮挡的敏感性预测遮挡区域, 降低遮挡对模型判别的影响.
    [38]CVPR18Pose-transferCGANGANHPE1887.6引入姿态估计模型定位人体结构, 优化GAN模型对人体形态的构建.
    [39]CVPR19PATNCGANGANOpenPose18采用双判别器分别改善图像质量及姿态形体, 提升生成图像的真实感.
    表  3  基于特征空间分割的方法总结(rank-1为原论文在Market-1501上的实验结果)

    Table  3  Summary of feature spatial partition based methods (rank-1 refers to the result of original paper on Market-1501)

    文献来源方法名称基础网络损失函数分割数目统计rank-1 (%)主要工作概述
    [17]ICCV18PCBResNet50交叉熵损失0693.8提出水平分割卷积特征, 提取细粒度的局部特征.
    [47, 53]ACM19MGNResNet50交叉熵损失
    3595.7多粒度网络, 结合粗粒度的全局特征及细粒度的局部特征, 使用多损失联合训练.
    12095.7构建金字塔结构, 在分割特征的同时保留特征间的上下文关系.
    1791.8设计了一种动态规划算法, 优先匹配相似度更高的局部特征, 减少了特征对齐误差.
    0393.0预定义分割区域, 使特征分割模型更稳定的提取部件特征.
    0386.2与无监督学习结合, 将每个分割区域作为一类聚类中心, 构建目标域与原域的细粒度相关性.
    表  4  基于视角信息的方法总结

    Table  4  Summary of viewpoint based methods

    [54]CVPR19PCBPsrsonX交叉熵损失深度学习提出了一个3D行人数据集, 定量探讨了视角特征对行人重识别任务的影响.
    [55]AVSS14坐标仿射变换TA + MS + W特征手工特征挖掘人体对称性特征、角度特征, 利用仿射变换对齐图像.
    [57]TPAMI14角度描述符VIH手工特征多视图构建角度描述符, 预测固定摄像头下行人姿态变化情况.
    [59]BMVC17GoogleNetVeSPA交叉熵损失深度学习基于行人属性集的视角标注, 训练了一个分类模型, 可预测行人视角概率.
    [60]CVPR18ResNet50PSE交叉熵损失深度学习将VeSPA模型用于行人重识别任务, 结合视角概率值生成鉴别特征.
    表  5  基于注意力机制的方法总结(rank-1为原论文在Market-1501上的实验结果)

    Table  5  Summary of attention based methods (rank-1 refers to the result of original paper on Market-1501)

    文献来源方法名称基础网络实现方法损失函数方法类型rank-1 (%)主要工作概述
    [61]CVPR17DLPARGoogleNet多分支的$1\times1$卷积层三元损失空间注意力64.2利用多个注意力模块作用到不同的人体部件, 多分支提取鉴别性特征.
    空间注意力83.7结合背景分割, 提取二值化轮廓图作为注意力图, 降低杂乱背景的干扰.
    91.2融合空间注意力学习与通道注意力, 同时学习平面像素特征与通道尺度特征.
    95.6利用 softmax 的分类特性, 加强通道特征间的相关性.
    非卷积方法95.3特征正则化, 将随机擦除作用到特征学习, 可有效抑制过拟合.
    表  6  DukeMTMC-ReID数据集上各种方法的对比结果 (%)

    Table  6  Experimental results of various methods on DukeMTMC-ReID dataset (%)

    XQDA + LOMO[10] (2015)手工特征30.717.0
    UMDL[73] (2016)无监督 + 手工特征30.016.4
    SPGAN[74] (2018)无监督 + GAN46.926.4
    PAN[1] (2017)全局特征71.551.5
    Pose-transfer[38] (2018)姿势提取78.556.9
    MGN[47] (2018)特征空间分割88.778.4
    Pyramidal[49] (2019)特征空间分割89.079.0
    PSE[60] (2018)视角信息79.862.0
    HA-CNN[65] (2018)注意力机制80.563.8
    表  7  Market-1501数据集上各种方法的对比结果 (%)

    Table  7  Experimental results of various methods on Market-1501 dataset (%)

    XQDA + LOMO[10] (2015)手工特征43.822.2
    UMDL[73] (2016)无监督 + 手工特征34.512.4
    SPGAN[74] (2018)无监督 + GAN58.126.9
    SOMAne[3] (2017)全局特征73.947.9
    Spindle[34] (2017)姿势提取76.9
    Pose-transfer[38] (2018)姿势提取87.668.9
    PCB[17] (2018)特征空间分割92.377.4
    MGN[47] (2018)特征空间分割95.786.9
    Pyramidal[49] (2019)特征空间分割95.788.2
    PSE[60] (2018)视角信息87.769.0
    HA-CNN[65] (2018)注意力机制91.275.7
    ABD-Net[66] (2019)注意力机制95.688.2
    表  8  CUHK03数据集上各种方法的对比结果 (%)

    Table  8  Experimental results of various methods on CUHK dataset (%)

    XQDA + LOMO[10] (2015)手工特征12.811.5
    PAN[1] (2019)全局特征36.334.0
    Pose-transfer[38] (2018)姿势提取41.638.7
    PCB[17] (2018)特征空间分割61.354.2
    MGN[47] (2018)特征空间分割66.866.0
    HA-CNN[65] (2018)注意力机制41.738.6
    表  9  各类局部特征方法比较

    Table  9  Comparison of various local feature methods

    姿势估计[5, 29-39]在特征学习的过程中融合准确的关键点特征, 以学习更具鉴别性的特征, 或利用关键点处理人体定位对齐、遮挡问题.姿态估计模型对人体关键点的检测精度、特征融合方法的有效性. 姿态估计数据集与行人重识别数据集具有较大偏差, 造成姿态估计模型在行人重识别任务中的语义分割效果不佳.
    特征空间分割[15, 47-52]对卷积层的特征进行均匀分割, 生成的每一块特征都由单独的损失函数约束训练输入数据的复杂程度, 特征分割区域的稳定性, 易受局部特征对齐问题的影响, 依赖质量较高的数据.
    视角信息[54-60]需要准确的视角信息. 常利用视角信息对不同视角的图像进行仿射变换以对齐图像视角, 或融合视角信息增加特征的鉴别性.视角信息的准确性, 目前没有专门增对视角特征的研究领域且相关数据集较少, 视角估计模型的准确度还有待提升.
    注意力机制[61-68]学习由卷积计算生成的显著性区域, 在训练过程中提高相关程度较高区域的权重, 同时降低相关程度较低区域的权重.注意力选择的有效性及多样性, 相关的工作表明结合多类注意力机制能够获得更好鉴别性特征.
    表  10  DukeMTMC-reID上融合多类局部特征方法的实验结果 (%)

    Table  10  Experimental results of the multiple-local feature fusion methods on DukeMTMC-reID (%)

    PCB[17]ECCV 2018特征空间分割81.942.665.333.7
    PGFA[36]ICCV 2019特征空间分割+姿势估计82.651.465.537.3
    ${\rm{P}}^2$-Net[75]ICCV 2019特征根据分割+注意力机制86.573.1
