时增林 叶阳东 吴云鹏 娄铮铮

时增林, 叶阳东, 吴云鹏, 娄铮铮. 基于序的空间金字塔池化网络的人群计数方法. 自动化学报, 2016, 42(6): 866-874. doi: 10.16383/j.aas.2016.c150663
SHI Zeng-Lin, YE Yang-Dong, WU Yun-Peng, LOU Zheng-Zheng. Crowd Counting Using Rank-based Spatial Pyramid Pooling Network. ACTA AUTOMATICA SINICA, 2016, 42(6): 866-874. doi: 10.16383/j.aas.2016.c150663
doi: 10.16383/j.aas.2016.c150663

国家自然科学基金资助 61170223, 61502432, 61502434


    时增林 郑州大学信息工程学院硕士研究生. 主要研究方向为计算机视觉, 机器学习, 深度学习. E-mail: iezlshi@gs.zzu.edu.cn

    吴云鹏 郑州大学信息工程学院博士研究生. 主要研究方向为机器学习, 计算机视觉. E-mail: ieypwu@zzu.edu.cn

    娄铮铮 郑州大学信息工程学院讲师, 博士.主要研究方向为机器学习, 模式识别, 计算机视觉. E-mail: iezzlou@zzu.edu.cn


    叶阳东 郑州大学信息工程学院教授. 主要研究方向为智能系统, 机器学习, 数据库.本文通信作者. E-mail: ieydye@zzu.edu.cn

Crowd Counting Using Rank-based Spatial Pyramid Pooling Network


National Natural Science Foundation of China 61170223, 61502432, 61502434

More Information
    Author Bio:

    SHI Zeng-Lin Master student at the School of Information Engineering, Zhengzhou University. His research interest covers computer vision, machine learning, and deep learning

    WU Yun-Peng Ph. D. candidate at the School of Information Engineering, Zhengzhou University. His research interest covers machine learning and computer vision

    LOU Zheng-Zheng Lecturer, Ph. D. at the School of Information Engineering, Zhengzhou University. His research interest covers machine learning, pattern recognition, and computer vision

    Corresponding author: YE Yang-Dong Professor at the School of Information Engineering, Zhengzhou University. His research interest covers intellectual system, machine learning, and database system. Corresponding author of this paper
  • 摘要: 视频中的人群计数在智能监控领域具有重要价值. 由于摄像机透视效果、图像背景、人群密度分布不均匀和行人遮挡等干扰因素的制约, 基于底层特征的传统计数方法准确率较低. 本文提出一种基于序的空间金字塔池化(Rank-based spatial pyramid pooling, RSPP)网络的人群计数方法. 该方法将原图像分成多个具有相同透视范围的子区域并在各个子区域分别取不同尺度的子图像块, 采用基于序的空间金字塔池化网络估计子图像块人数, 然后相加所有子图像块人数得出原图像人数. 提出的图像分块方法有效地消除了摄像机透视效果和人群密度分布不均匀对计数的影响. 提出的基于序的空间金字塔池化不仅能够处理多种尺度的子图像块, 而且解决了传统池化方法易损失大量重要信息和易过拟合的问题. 实验结果表明, 本文方法相比于传统方法具有准确率高和鲁棒性好的优点.
  • 图  1  传统人群计数方法和本文人群计数方法的流程

    Fig.  1  The flow chart of traditional and the proposed crowd counting methods

    图  2  当前典型的卷积-池化结构

    Fig.  2  The typical convolution-pooling structure

    图  3  典型的空间金字塔层结构

    Fig.  3  The typical spatial pyramid pooling structure

    图  4  图像分块方法

    Fig.  4  The methods of dividing image into sub-image blocks

    图  5  计数模型的整体结构

    Fig.  5  The overall structure of the crowd counting model

    图  6  UCSD 数据集示例帧

    Fig.  6  Examples frames of the UCSD dataset

    图  7  子图像块示例

    Fig.  7  Examples of sub-image blocks

    图  8  整个测试集的计数结果

    Fig.  8  The recognition results on the entire testing frames

    图  9  在多种人群密度上的计数结果

    Fig.  9  Various density crowd counting

    表  1  人群CNN 模型的详细结构

    Table  1  Architecture specics for crowd CNN model

    层数1234 5(输出)
    操作conv+relu+rsp+rn conv+relu+rsp+rn conv+relu+rspp full full
    卷积大小5×5 5×5 5×5 - -
    卷积步长1×1 1×1 1×1 - -
    池化大小3×3 3×3 {4×4, 2×2, 1×1} - -
    池化步长2×2 2×2 - - -
    填充大小2×2×2×2 2×2×2×2 2×2×2×2 - -
    表  2  实验数据

    Table  2  Experimental data

    64×64 104 000 3 600
    44×44 104 000 4 800
    28×28 44 000 3 600
    表  3  多种池化方法在尺度为64 的子图像块上的测试结果

    Table  3  Testing results for sub-image blocks with the scale of 64 of various pooling methods

    表  4  子图像块上的测试结果

    Table  4  The testing results in sub-image blocks

    表  5  整幅图像上的测试结果

    Table  5  The testing results in image

    方法MAE MSE
图(9) / 表(5)
  • 收稿日期:  2015-10-31
  • 录用日期:  2016-04-01
  • 刊出日期:  2016-06-20


