李幼蛟 卓力 张菁 李嘉锋 张辉

李幼蛟, 卓力, 张菁, 李嘉锋, 张辉. 行人再识别技术综述. 自动化学报, 2018, 44(9): 1554-1568. doi: 10.16383/j.aas.2018.c170505
LI You-Jiao, ZHUO Li, ZHANG Jing, LI Jia-Feng, ZHANG Hui. A Survey of Person Re-identification. ACTA AUTOMATICA SINICA, 2018, 44(9): 1554-1568. doi: 10.16383/j.aas.2018.c170505
doi: 10.16383/j.aas.2018.c170505

    李幼蛟 北京工业大学信息学部博士研究生.山东理工大学讲师.主要研究方向为计算机视觉, 深度学习.E-mail:liyoujiao@emails.bjut.edu.cn

    张菁 北京工业大学教授.2008年获得北京工业大学博士学位.美国德州大学圣安东尼奥分校计算机科学系访问学者.主要研究方向为图像处理, 图像识别, 图像检索.E-mail:zhj@bjut.edu.cn

    李嘉锋 北京工业大学信号与信息处理实验室讲师.2009年获得中国农业大学信息与电气工程学院学士学位, 2012年和2016年获得北京航空航天大学模式识别与智能系统专业硕士学位与博士学位.2014~2015年美国匹兹堡大学访问学者.主要研究方向为计算机视觉/图像增强, 图像复原.E-mail:lijiafeng@bjut.edu.cn

    张辉 北京工业大学信息学部讲师.2010年获得北京理工大学信号与信息处理专业博士学位.主要研究方向为计算机视觉, 机器学习在多媒体内容分析, 视觉追踪, 目标检测中的应用.E-mail:huizhang@bjut.edu.cn


    卓力 北京工业大学教授.1992年获得电子科技大学无线电技术系工学学士学位, 1998年和2004年分别获得东南大学信号与信息处理专业硕士学位和北京工业大学模式识别与智能系统专业博士学位.主要研究方向为图像/视频编码和传输, 多媒体内容分析, 多媒体信息安全.本文通信作者.E-mail:zhuoli@bjut.edu.cn

A Survey of Person Re-identification


    Author Bio:

    Ph.D. candidate at the Faculty of Information Technology, Beijing University of Technology and lecturer at Shandong University of Technology.His research interest covers computer vision and deep learning

    Professor at Beijing University of Technology, visiting scholar in the Department of Computer Science, University of Texas at San Antonio, USA.She received her Ph.D. degree from Beijing University of Technology in 2008.Her research interest covers image processing, image recognition, and image retrieval

    Lecturer at Signal and Information Processing Laboratory, Beijing University of Technology.He received his bachelor degree from the College of Information and Electrical Engineering, China Agriculture University in 2009, master degree and Ph.D.degree in pattern recognition and intelligence system from Beihang University in 2012 and 2016.He is a visiting scholar in the Department of Neurosurgery, University of Pittsburgh, USA from 2014 to 2015.His research interest covers computer vision, image enhancement, and image restoration

    Lecturer at the Faculty of Information, Beijing University of Technology. He received his Ph.D.degree in signal and information processing from Beijing Institute of Technology in 2010.His research interest covers computer vision and machine learning techniques applied to multimedia content analysis, visual tracking and object detection

    Corresponding author: ZHUO Li Professor at Beijing University of Technology.She received her bachelor degree in radio technology from University of Electronic Science and Technology in 1992, master degree in signal and information processing from Southeast University in 1998, and Ph.D.degree in pattern recognition and intellectual system from Beijing University of Technology in 2004. Her research interest covers image/video coding and transmission, multimedia content analysis, and multimedia information security. Corresponding author of this paper
  • 摘要: 行人再识别指的是判断不同摄像头下出现的行人是否属于同一行人, 可以看作是图像检索的子问题, 可以广泛应用于智能视频监控、安保、刑侦等领域.由于行人图像的分辨率变化大、拍摄角度不统一、光照条件差、环境变化大、行人姿态不断变化等原因, 使得行人再识别成为目前计算机视觉领域一个既具有研究价值又极具挑战性的研究热点和难点问题.早期的行人再识别方法大多基于人工设计特征, 在小规模数据集上开展研究.近年来, 大规模行人再识别数据集不断推出, 以及深度学习技术的迅猛发展, 为行人再识别技术的发展带来了新的契机.本文对行人再识别的发展历史、研究现状以及典型方法进行梳理和总结.首先阐述了行人再识别的基本研究框架, 然后分别针对行人再识别的两个关键技术(特征表达和相似性度量), 进行了归纳总结, 重点介绍了目前发展迅猛的深度学习技术在行人再识别中的应用.另外, 本文对行人再识别中代表性的数据集以及在各个数据集上可以取得优异性能的方法进行了分析和比较.最后对行人再识别技术的未来发展趋势进行了展望.
  • 图  1  行人再识别典型流程图

    Fig.  1  Typical flowchart of person Re-ID

    图  2  行人图像块分割方法

    Fig.  2  Patch segmentation methods of pedestrian image

    图  3  行人显著区域示意图

    Fig.  3  The illustration of salient region

    图  4  深度学习模型各网络层示意图

    Fig.  4  Illustration of the network layers in deep learning model

    图  5  基于深度学习的行人再识别方法的三种方式

    Fig.  5  Three ways of deep learning-based person re-identification

    图  6  CMC曲线示意图

    Fig.  6  The illustration of CMC curve

    表  1  典型行人图像分割方法

    Table  1  Typical segmentation methods of pedestrian image

    分割方式 对应文献 主要思想
    上下半身分割 [3, 5] 提取行人的前景图像, 分成头部、躯干和腿部三部分.对后两部分计算垂直对称轴.对提取的特征根据与垂直对称轴的距离进行加权, 从而减少行人姿态变化的影响.缺点是分割过程过于复杂.
    条纹分割 [6-7] 分成六个水平条, 分别对应于行人头部、水平躯干的上下部、腿部的上下部分.然后提取水平条内的ELF特征, 减少了视角变化对识别的影响.缺点是会造成水平条内空间细节信息的损失.
    滑动窗分割 [8] 利用滑动窗来描述行人图像的局部细节信息, 在每个滑动窗内提取颜色和纹理特征.缺点是特征维数过大.
    三角形分割 [2] 利用局部运动特征对行人图像进行三角形时空分割.缺点是分割结果不够准确.
    表  2  Market-1501数据集上不同深度模型对首轮识别率的影响

    Table  2  Rank-1 matching rates of different deep models in Market-1501

    模型名称 提出时间 首轮识别率(%)
    AlexNet[38] 2012年 56.03
    VGG-16[56] 2014年 64.34
    Residual-50[53] 2016年 72.54
    表  3  基于深度学习的方法目前所取得的最好效果

    Table  3  The best results of deep learning-based methods

    整合方式 方法 取得最好效果的数据集 提出时间 首轮识别率(%)
    端到端式 TriNet[57] Market-1501, MARS 2017年 84.9, 79.8
    混合式 HIPHOP[58] VIPeR, CUHK01[59] 2017年 54.2, 78.8
    独立式 LCAR[60] iLIDS-VID[25] 2017年 60.02
    表  4  常用行人再识别数据集及其参数

    Table  4  Popular person re-identification datasets and their parameters

    数据库名称 发布时间 图像/视频 人数 图像/视频片段数量 摄像头数量
    VIPeR 2007年 图像 632 1264 2
    CUHK01 2012年 图像 971 3884 2
    Market-1501 2015年 图像 1501 32668 6
    PRID-2011[65] 2011年 视频 200 400 2
    iLIDS-VID 2014年 视频 300 600 2
    MARS[4] 2016年 视频 1261 20715 6
    表  5  行人再识别图像数据集上取得优异性能的方法对比

    Table  5  Comparison of state-of-the-art methods on image-based person re-identification datasets

    数据集 算法 人工设计/深度学习 rank-1(%) rank-5(%) rank-10(%) rank-20(%) 年份
    SCSP[66] 人工 53.5 82.6 91.5 96.6 2016年
    VIPeR FFN[50] 深度 51.1 81 91.4 96.9 2016年
    HIPHOP[58] 深度 54.2 82.4 91.5 96.9 2017年
    Zhang等[63] 人工 65 85 89.9 94.4 2016年
    CUHK01 FFN 深度 55.5 78.4 83.7 92.6 2016年
    HIPHOP 深度 78.8 92.6 95.3 97.8 2017年
    Zheng等[64] 深度 85.8 94.4 96.4 97.5 2016年
    Market-1501 SOMAnet[67] 深度 81.3 92.6 95.3 97.1 2017年
    WARCA[68] 人工 45.1 68.1 76 84 2016年
    表  6  行人再识别视频数据集上取得优异性能的方法对比

    Table  6  Comparison of state-of-the-art methods on video-based person re-identification datasets

    数据集 算法 人工设计/深度学习 rank-1 (%) rank-5 (%) rank-10 (%) rank-20 (%) 年份
    zhang等[60] 深度 83.3 93.3 - 96.7 2017年
    PRID-2011 McLaughlin等[45] 深度 70 90 95 97 2016年
    TAPR[24] 人工 68.6 94.6 97.4 98.9 2016年
    Zhang等[60] 深度 60.2 85.1 - 94.2 2017年
    iLIDS-VID McLaughlin等[45] 深度 58 84 91 96 2016年
    TAPR 人工 55 87.5 93.8 97.2 2016年
    Zhang等[60] 深度 55.5 70.2 - 80.2 2017年
    MARS CNN+XQDA[4] 深度 65.3 80.2 - 89 2016年
    LOMO+XQDA[4] 人工 30.7 46.6 - 60.9 2016年
