-
摘要: 为了提高基于深度学习和属性学习的行人再识别的识别精度,提出一种联合识别行人属性和行人ID的神经网络模型.相对于已有的同类方法,该模型有三大优点:1)为了提高网络在微调后的判别能力,在网络中增加了一层保证模型迁移能力的全连接层;2)基于各属性样本的数量,在损失函数中对各属性的损失进行了归一化处理,避免数据集中属性类之间的数量不均衡对识别效果的影响;3)利用数据中各属性分布的先验知识,通过数量占比来调整各属性在损失层中的权重,避免数据集中各属性正负样本的数量不均衡对识别的影响.实验结果表明,本文提出的算法具有较高的识别率,其中在Market1501数据集上,首位匹配率达到了86.90%,在DukeMTMC数据集上,首位匹配率达到了72.83%,在PETA数据集上,首位匹配率达到了75.68%,且对光照变化、行人姿态变化、视角变化和遮挡都具有很好的鲁棒性.Abstract: In order to improve the recognition accuracy of pedestrian recognition based on deep learning and attribute learning, a new neural network model is proposed to identify pedestrian attributes and IDs. Compared with the existing methods, this model has three advantages, one is to increase an all connected layer in the network to guarantee the model's migration which improves the network's discriminant ability after fine-tuning; Second, based on the number of samples of each attribute, we normalized processing the loss of each attribute in the loss function, to avoid the number of disequilibrium effect between classes among the data set which attributes to identify results; third, use the data of each attribute distribution in the prior knowledge, through a number of ratios to adjust each attribute's weight to avoid the influence of positive and negative samples' disequilibrium. Experimental results show that the proposed algorithm has high recognition rate, the rank-1 accuracy reached 86.90% on Market1501 dataset, 72.83% on DukeMTMC dataset and 75.68% on PETA dataset, it also shows that the proposed algorithm has good robustness on illumination changes, pedestrians posture changes, perspective changes and occlusions.
-
近年来, 随着监控设备在公共场所的普及, 行人再识别技术越来越受到人们的重视.行人再识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术.但是由于光照、遮挡、行人姿态等问题, 同一行人在不同场景中的外观呈现出较大差异, 这给行人再识别研究带来了巨大挑战.为了有效应对这些挑战, 广大研究者提出了很多解决方法.
1. 相关研究
目前的行人再识别算法大体可分为三类, 分别是特征表示学习、距离度量学习和基于深度学习的方法.特征表示学习方法利用视觉特征对行人建立一个具有鲁棒性和区分性的表示, 然后根据传统的相似性度量算法(欧氏距离等)来计算行人之间的相似度.文献[1]在提取出行人前景的基础上, 利用行人区域的对称性和非对称性将前景划分成不同的区域, 对于每个区域, 提取带权重的颜色直方图等特征描述它们.文献[2]对于提取出的颜色直方图特征, 使用PCA (Principle component analysis)对其进行降维.文献[3]结合方向、颜色、熵等多种特征, 分级识别行人.虽然特征表示学习的思想较为直接简单, 易于解决小规模数据集的行人再识别问题, 但是在光照、视角、姿态变化较大的情况下, 特征表示学习方法的效果很差.
距离度量学习是一种利用测度学习算法得出两张行人图像的相似度度量函数, 使相关的行人图像对的相似度尽可能高, 不相关的行人图像对的相似度尽可能低的方法.代表性的距离度量学习算法有文献[4], 其中将行人再识别问题转化为距离学习问题, 提出了一种基于概率相对距离的行人匹配模型.文献[5]在不同的特征子空间中利用不同的核函数对距离进行度量.文献[6]基于马尔科夫模型对行人之间的距离进行度量.在大规模数据集下, 距离度量学习计算开销过大, 计算效率过低, 容易陷入局部最小值, 准确率不高.
深度学习近年来在计算机视觉中得到了广泛的应用, 因此不少学者研究并提出了基于深度学习的行人再识别算法.文献[7]最先将深度学习应用于行人再识别领域, 使用卷积神经网络提取行人的特征.随后不断研究对其进行改进.文献[8]提出将LSTM (Long short-term memory)模型结合进卷积神经网络中, 提高了网络对时序特征的提取能力.文献[9]将注意力模型结合进CNN (Convolutional neural network)网络中, 提升了模型的特征提取能力.基于深度学习的行人再识别近年来成为该领域的主流方法, 相对于传统方法, 具有识别精度高, 鲁棒性好的优点.
上述方法有个共同的特点, 就是它们仅仅考虑了行人图片的标签信息, 也就是只使用了行人ID这个标记信息, 并没有采用行人的属性信息.为此, 近年来, 随着带属性标签行人数据库的出现, 有研究人员提出了基于属性的行人再识别方法, 比如文献[10-11]使用行人属性进行行人再识别, 达到了很好的识别效果.由于基于属性学习的方法具有更符合人类的搜索习惯, 能应用于零样本学习等优点, 因此当前这类方法成为该领域的研究热点.其中, 文献[10]主要针对监控场景下行人属性的识别做出了改进, 主要提出了两个行人属性识别网络DeepSAR和DeepMAR, 前者对每个属性进行单独预测, 后者联合多属性同时预测, 在预测每个属性时, 考虑到属性内正负样本不均衡的情况, 利用数据先验分布对属性预测的权值进行调整, 从而提高了行人属性的识别效果.文献[11]提出一种联合识别行人属性和行人ID的神经网络模型, 大幅度提高了行人再识别的准确率, 作者首先对大规模行人再识别数据集Market 1501[12]和DukeMTMC[13]进行了行人属性的标注, 然后基于这些标注图片, 设计实现了APR (Attribute-person recognition)神经网络, 该网络对输入图片同时进行行人属性和行人ID的提取与识别, 将识别结果与图片标注标签进行比对, 比对结果作为反向传播的依据, 训练得到网络, 从网络中提取出代表行人的向量, 进行距离度量计算, 得到再识别的结果.该网络充分利用了行人的ID信息和属性信息, 相对于已有方法, 有效提高了行人再识别的精度.本文在APR的基础上, 进一步进行了三个方面的改进, 首先, 网络结构上的改进, 在网络中添加了一层全连接层.根据文献[14]的研究, 全连接层可以提高网络在微调后的判别能力, 保证源模型表示能力的迁移; 然后, 针对数据集中属性类之间的数量不均衡问题, 在损失函数中对各属性的损失基于其包含的样本数量进行了归一化处理, 提高网络对不平衡数据的处理能力; 最后, 针对数据集中各属性正负样本的数量不均衡问题, 利用数据中各属性分布的先验知识, 通过数量占比来调整各属性在损失层中的权重.测试结果表明, 本文算法在公共实验数据集上的实验效果优于目前主流的行人再识别算法, 尤其是首位匹配率(Rank-1), 相对于APR网络, 也是有了较大幅度的提升.
本文其余章节的组织安排如下.第1节介绍本文提出的用于提取行人属性和ID的行人再识别网络结构; 第2节介绍本文提出的运用数据先验知识的损失函数设计原理及实现; 第3节介绍本文算法在公共数据集上的实验结果及分析; 第4节总结全文以及展望.
2. 用于提取行人属性和ID的行人再识别网络结构设计
在本节中, 主要介绍用于提取行人属性和ID的行人再识别网络结构和算法流程.为了提取到高鲁棒性的行人属性特征描述子, 基于数据分布的先验知识, 本文对APR网络进行了大幅度改进, 具体网络结构见图 1.主要分两个部分介绍改进后的网络:基础网络部分, 行人特征向量度量部分.下面详细介绍这两个方面的内容.
2.1 模型架构
本文的基础网络主要由两个部分组成, 以全连接层$F{{C}_{0}}$为界线, 前半部分为残差网络(Resnet[15]), 后半部分为行人属性和ID特征分类网络.首先介绍前半部分, 在计算机视觉里, 特征的等级随着网络深度的加深而变高.研究表明, 网络的深度是实现好效果的重要因素, 然而太深的网络在训练中会存在梯度弥散和爆炸的障碍, 导致无法收敛. Resnet的提出, 解决了多达100层的深度神经网络训练的问题, 它通过学习残差函数, 实现恒等映射, 从而在不引入额外参数和计算复杂度的情况下, 避免了网络的退化.本文网络采用的是Resnet-50网络, 即具有50层深度的网络, 该网络主要由卷积层(Convolution layer)、池化层(Pooling layer)和残差块组成.
卷积层主要用于对图像或者上一层的特征图(Feature map)作卷积运算, 并使用神经元激活函数计算卷积后的输出.卷积操作可以表示为:
$ \begin{equation} \begin{aligned} {{{\pmb y}}^{j}}=f\left( {{b}^{j}}+\sum\limits_{i}{{{k}^{i, j}}\ast {{{\pmb x}}^{i}}} \right) \end{aligned} \end{equation} $
(1) 其中, ${{{\pmb x}}^{i}}$为第$i$层输入图像或特征图, ${{{\pmb y}}^{j}}$为第$j$层输出特征图, ${{k}^{i, j}}$是连接第$i$层输入图像与第$j$层输入图像的卷积核, ${{b}^{j}}$是第$j$层输出图像的偏置, $\ast $是卷积运算符, $f\left(x\right)$是神经元激活函数.
池化层主要对卷积层的输出作下采样, 其目的是减小特征图尺寸大小, 增强特征提取对旋转和形变的鲁棒性.一般使用平均值池化和最大值池化两种方式, 设输入特征图矩阵$F$, 子采样池化域的大小为$c\times c$, 偏置为$b$, 池化过程移动步长为$c$.则平均值池化和最大值池化的算法表达式分别为:
$ \begin{equation} \begin{aligned} {{S}_{ij}}=\frac{1}{{{c}^{2}}}\left( \sum\limits_{i=1}^{c}{\sum\limits_{j=1}^{c}{{{F}_{ij}}}} \right)+b \end{aligned} \end{equation} $
(2) $ \begin{equation} \begin{aligned} {{S}_{ij}}=\underset{i=1, j=1}{\overset{c}{\mathop{\max }}}\, \left( {{F}_{ij}} \right)+b \end{aligned} \end{equation} $
(3) 其中, ${\max }^{c}_{i=1, j=1}\, \left({{F}_{ij}} \right)$表示从输入特征图$F$的池化域中取出最大元素.
残差块是整个网络的核心部分, 基本思想是在一个浅层网络基础上叠加一个恒等映射(Identity mappings), 并学习残差函数, 从而使得网络不退化而且性能更好.残差块共有两层, 计算表达式如下:
$ \begin{equation} \begin{aligned} F\left( {\pmb x} \right)={{W}_{2}}\sigma \left( {{W}_{1}}{\pmb x} \right) \end{aligned} \end{equation} $
(4) 其中, $\sigma$表示非线性函数Relu, ${{W}_{1}}$和${{W}_{2}}$表示两个卷积层的参数矩阵.
最后通过一个捷径(Shortcut)与恒等映射相加, 再通过一个Relu函数, 获得输出${\pmb y}$.
$ \begin{equation} \begin{aligned} {\pmb y}=F\left( {\pmb x}, \left\{ {{W}_{i}} \right\} \right)+{\pmb x} \end{aligned} \end{equation} $
(5) 网络的后半部分为行人属性和ID特征分类网络, 主要用于提取行人的属性特征和行人ID特征, 由全连接层(Fully connected layers, FC)、Softmax层和损失层(Loss layers)组成.本文网络架构相较于APR网络最大的改进之处就是添加了$F{{C}_{0}}$层, 根据文献[14]的研究, $F{{C}_{0}}$层的主要作用是在模型表示能力迁移过程中充当“防火墙”的作用.具体来讲, 本实验是基于ImageNet上预训练得到的模型进行微调(fine tuning)得到最后的训练结果的, 则ImageNet可视为源域(Source domain).针对微调, 若目标域(Target domain)中的图像与源域中图像差异巨大, 如本文的实验中, 使用的是行人数据集, 相比ImageNet, 目标域图像不是各种物体的图像, 而是行人图像, 差异巨大.在这种情况下, 不含全连接层的网络微调后的结果要差于含全连接层的网络.因此, 在源域与目标域差异较大的情况下, 添加$F{{C}_{0}}$层, 可保证模型表示能力的迁移.
图 1中全连接层$F{{C}_{1\text{-G}}}$和$F{{C}_{ID}}$主要起到分类器的作用, 对于每一个全连接层来说, 它的参数由节点权重矩阵$W$、偏置$b$以及激活函数$f$构成, 可以表示为:
$ \begin{equation} \begin{aligned} {\pmb y}=f\left( W\cdot {\pmb x}+b \right) \end{aligned} \end{equation} $
(6) 其中, ${\pmb x}$, ${\pmb y}$分别为输入、输出数据.
而Softmax层主要在全连接层的基础上, 进行分类结果的概率计算.可以表示为:
$ \begin{equation} \begin{aligned} {{{\pmb y}}_{i}}=\frac{\exp \left( {{{\pmb x}}_{i}} \right)}{\sum\limits_{j=1}^{n}{\exp \left( {{{\pmb x}}_{j}} \right)}} \end{aligned} \end{equation} $
(7) 其中, ${{{\pmb x}}_{i}}$为Softmax层第$i$个节点的值, ${{{\pmb y}}_{i}}$为第$i$个输出值, $n$为Softmax层节点的个数.
Loss层采用交叉信息熵损失(Cross-entropy loss)计算方式, 可以表示为:
$\begin{equation} \begin{aligned} Loss=\, &-\frac{1}{N}\sum\limits_{n=1}^{N}[{{p}_{n}}\log \left( {{{\hat{p}}}_{n}} \right)+\notag\\ &\left( 1-{{p}_{n}} \right)\log \left( 1-{{{\hat{p}}}_{n}} \right)] \end{aligned} \end{equation} $
(8) 2.2 行人特征向量度量部分
本文从网络中的$F{{C}_{0}}$层中提取出2 048维的特征向量, 用于表示行人特征, 采用交叉视角的二次判别分析法(Cross-view quadratic discriminant analysis, XQDA)[16]进行向量之间距离的度量, 该方法是在KISSME算法和贝叶斯方法基础上提出的.该方法用高斯模型分别拟合类内和类间样本特征的差值分布.根据两个高斯分布的对数似然比推导出马氏距离.
$ \begin{equation} \begin{aligned} P\left( \frac{\Delta }{{{\Omega }_{I}}}\; \right)=\frac{1}{{{\left( 2\pi \right)}^{{\scriptstyle{}^\frac{d}{2}}}}{{\left|{\sum _{I}} \right|}^{{\scriptstyle{}^\frac{1}{2}}}}}{{{\rm e}}^{-\frac{1}{2}{{\Delta }^{{\rm T}}}\sum \limits_{I}^{-1}\Delta }} \end{aligned} \end{equation} $
(9) $ \begin{equation} \begin{aligned} P\left(\frac {\Delta }{{{\Omega }_{E}}}\; \right)=\frac{1}{{{\left( 2\pi \right)}^{{\scriptstyle{}^\frac{d}{2}}}}{{\left| {{\sum }_{E}} \right|}^{{\scriptstyle{}^\frac{1}{2}}}}}{{{\rm e}}^{-\frac{1}{2}{{\Delta }^{{\rm T}}}\sum \limits_{E}^{-1}\Delta }} \end{aligned} \end{equation} $
(10) 上述两式取根号相除, 得到对数似然比为:
$ \begin{equation} \begin{aligned} f\left( \Delta \right)={{\Delta }^{{\rm T}}}\left( \sum _{I}^{-1}-\sum _{E}^{-1} \right)\Delta \end{aligned} \end{equation} $
(11) 则两个样本之间的距离为:
$ \begin{equation} \begin{aligned} d\left( {{{\pmb x}}_{i}}, {{{\pmb x}}_{j}} \right)={{\left( {{{\pmb x}}_{i}}-{{{\pmb x}}_{j}} \right)}^{{\rm T}}}\left( \sum _{I}^{-1}-\sum _{E}^{-1} \right)\left( {{{\pmb x}}_{i}}-{{{\pmb x}}_{j}} \right) \end{aligned} \end{equation} $
(12) 最后对所有的样本之间的距离进行排序, 选取距离最小的样本作为识别结果.
3. 基于数据分布先验的损失函数设计
第1节从整体上介绍了本文提出的行人再识别网络, 本节主要介绍网络中损失层计算的改进之处.本文主要利用数据先验分布, 对第1节提出的式(8)进行进一步的阐述和改进, 为了便于问题描述, 做出如下假设.
假设训练数据集中(以Market 1501数据集为例, 见表 1)包含$N$张行人图片, 分别属于$M$个不同的行人, 每张图片标注了$G$类属性, 包括性别, 头发长短, 是否带包, 上衣颜色等属性, 对于每一类属性, 其中包含了${{K}^{g}}$种属性, 以上衣颜色为例, 其中包含黑色, 白色, 黄色等多种属性.将数据集用集合方式描述如下:
$ \begin{equation} \begin{aligned} D=\left\{ \left( {{x}_{i}}, l_{i}^{1}, \cdots, l_{i}^{G} \right) \right\}_{i=1}^{N} \end{aligned} \end{equation} $
(13) 表 1 Market 1501数据集中的属性类别Table 1 The attribute category of Market 1501 dataset属性类($G$) 属性 数量($K$) Gender male, female 2 Age child, teenager 4 Hair length long, short 2 Lower clothing length long, short 2 Lower clothing type pants, dress 2 Wearing hat yes, no 2 Carrying bag yes, no 2 Carrying backpack yes, no 2 Carrying handbag yes, no 2 Upper clothing color black, white, red$\cdots$ 8 Lower clothing color black, white, pink$\cdots$ 9 其中, ${{x}_{i}}$为第$i$张行人图片, 行人的第$g$类属性可以用向量${\pmb l}_{i}^{g}=\left(l_{i, 1}^{g}, \cdots, l_{i, {{K}^{\left( g \right)}}}^{g} \right)$表示, 每类属性中的第$k$种属性$l_{i, k}^{g}$都是二值向量表示, 即$l_{i, k}^{g}\in \left\{ 0, 1 \right\}$, 如果行人存在该属性, 则$l_{i, k}^{g}=1$, 反之则$l_{i, k}^{g}=0$.
APR网络中的损失函数包括两部分, 一部分是属性识别的损失函数, 一部分是行人ID识别的损失函数.可以用下式进行计算:
$ \begin{equation} \begin{aligned} L=\lambda {{L}_{ID}}+\frac{1}{G}\sum\limits_{i=1}^{G}{{{L}^{g}}} \end{aligned} \end{equation} $
(14) 其中, ${{L}_{ID}}$表示行人ID识别的损失函数, ${{L}^{g}}$表示各类属性识别的损失函数, $\lambda$为参数, 用于调节两者的权重.
行人ID识别的损失函数具体形式为:
$ \begin{equation} \begin{aligned} {{L}_{ID}}=-\sum\limits_{m=1}^{M}{\log \left( p\left( m \right) \right)q\left( m \right)} \end{aligned} \end{equation} $
(15) 其中, $p\left(m\right)$表示第$i$个样本属于第$m$类行人的概率, 由$F{{C}_{ID}}$层后的Softmax层计算得到; 如果假设$y$为标注的正确行人类别, 则$q\left(y\right)=1$, 当$m\ne y$时, $q\left(m\right)=0$.
行人属性识别的损失函数具体形式为:
$ \begin{equation} \begin{aligned} {{L}^{g}}=-\sum\limits_{k=1}^{{{K}^{g}}}{\log \left( p\left( k \right) \right)}l_{i, k}^{g} \end{aligned} \end{equation} $
(16) 其中, $p\left(k\right)$表示第$i$个样本属于第$g$类属性中第$k$种属性的概率值, 由$F{{C}_{1-G}}$各层后的Sofxmax层计算得到.
在APR网络的基础上, 本文主要对基于属性识别的损失函数, 就是式(16)进行了改进.这部分改进包括两方面: 1) 基于属性样本数量对损失函数进行归一化; 2) 基于各属性中正负样本数量的占比对不同的属性赋予不同的权重.下面在第3.1节和第3.2节分别进行介绍.
3.1 基于属性样本数量的损失函数归一化
对通用的行人数据集统计发现, 属性间存在的样本数量不平衡现象, 这极大得影响了行人再识别的识别准确性.以Market 1501数据集为例, 表 2中统计了数据集中行人各属性的数量.从表 2可以看出, 年龄是青年, 穿短袖上衣, 短裤等属性的样本数量较多, 分别为569, 712, 641个样本.携带手提包, 帽子, 穿粉色下衣等属性的样本数量很少, 分别只有86, 20, 2个样本.针对各属性样本数据不平衡的情况, 本文在损失层的计算中, 对各属性的损失, 基于其所包含的样本数量进行了归一化处理.最终, 损失层改写为下式:
$ \begin{equation} \begin{aligned} {{L}^{g}}=-\frac{1}{{{N}^{g}}}\sum\limits_{i=1}^{N}{\sum\limits_{k=1}^{{{K}^{g}}}{\frac{l_{i, k}^{g}\log p_{i, k}^{g}}{N_{k}^{g}}}}, \text{ }g=1, \cdots, G \end{aligned} \end{equation} $
(17) 表 2 Market 1501数据集中行人属性训练样本数量及占比Table 2 Statistics of Market 1501 dataset属性 数量 占比 属性 数量 占比 upblack 113 0.15 male 431 0.57 upwhite 228 0.30 female 320 0.43 upred 78 0.10 short hair 506 0.67 uppurple 30 0.04 long hair 245 0.33 upyellow 36 0.05 long sleeve 39 0.05 upgray 86 0.11 short sleeve 712 0.95 upblue 46 0.06 long lower body 110 0.15 upgreen 56 0.07 short lower body 641 0.85 handbag no 665 0.89 dress 294 0.39 handbag yes 86 0.11 pants 457 0.61 young 14 0.02 downgray 123 0.16 teenager 569 0.76 downblack 293 0.39 adult 160 0.21 downwhite 58 0.08 old 8 0.01 downpink 29 0.04 bag no 566 0.75 downpurple 2 0.00 bag yes 185 0.25 downyellow 10 0.01 backpack no 552 0.74 downblue 123 0.16 backpack yes 199 0.26 downgreen 14 0.02 hat no 731 0.97 downbrown 69 0.09 hat yes 20 0.03 其中, ${{N}^{g}}$表示第$g$类属性的训练样本数量, $N_{k}^{g}$表示第$g$类属性中第$k$种属性的训练样本数量, 概率值$p_{i, k}^{g}$是$F{{C}_{1-G}}$各层的输出经由Softmax层计算而得的, 表示第$i$个样本属于第$g$类属性中第$k$种属性的概率值.
Softmax层的计算方式如下:
$ \begin{equation} \begin{aligned} p_{k}^{g}=\frac{\exp \left( o_{i, k}^{g} \right)}{\sum\limits_{k'=1}^{K\left( g \right)}{\exp \left( o_{i, k'}^{g} \right)}} \end{aligned} \end{equation} $
(18) 其中, $o_{i, k}^{g}$表示$F{{C}_{1-G}}$各层的第$k$个输出值.
对于行人类别来说, 每个行人的样本数量大致相同, 基本不存在数据不平衡问题, 则不需要进行归一化操作.假设$F{{C}_{ID}}$层的输出为${\pmb z}=\left[{{z}_{1}}, {{z}_{2}}, \cdots, {{z}_{M}} \right]\in {{\bf R}^{M}}$, 同理可得, 第$i$个样本属于第$m$类行人的概率为:
$\begin{equation} \begin{aligned} p_{i}^{m}=\frac{\exp \left( {{{\pmb z}}_{m}} \right)}{\sum\limits_{i'=1}^{M}{\exp \left( {{{\pmb z}}_{i'}} \right)}} \end{aligned} \end{equation} $
(19) 则可以将式(15)改写成如下损失函数:
$ \begin{equation} \begin{aligned} {{L}^{ID}}=-\frac{1}{M}\sum\limits_{m=1}^{M}{\log \left( p_{i}^{m} \right)}q\left( m \right) \end{aligned} \end{equation} $
(20) 对于整个网络来说, 不能只计算属性或者行人类别的损失函数, 这会导致训练无法收敛.所以网络采用联合损失函数的方式, 将两者结合起来, 作为网络整体的损失函数, 联合方式可以用下式表示:
$ \begin{equation} \begin{aligned} L=\alpha {{L}^{ID}}+\left( 1-\alpha \right)\frac{1}{G}\sum\limits_{g=1}^{G}{{{L}^{g}}} \end{aligned} \end{equation} $
(21) 其中, $0\le \alpha \le 1$, 该参数用于调节两个损失层在网络中的权重, 通过实验得到最佳值.在整个训练过程中, 通过反向传播和梯度下降来计算网络参数.
3.2 基于属性正负样本权重调整的损失函数设计
行人再识别数据库中, 不仅存在属性间样本数量不平衡的问题, 也存在属性内正负样本数据不平衡问题.在选取的三个实验数据集中, 行人属性内的正负样本数据不平衡的现象也非常严重.以Market 1501数据集为例, 从表 2中可以看出, 比如在是否戴帽子这个属性类中, 戴帽子的占较少数, 没有帽子的占大多数, 占比为0.03/0.97.在上衣长短这个属性中, 也是正负样本比例不均, 长袖的只占0.05.在这种情况下, 正样本在在识别过程中起到的影响过小, 不能很好地反应行人属性真实情况, 影响识别的效果.为了解决正负样本不平衡的情况, 参照文献[10]的方法, 本文在第3.1节提出的损失层计算基础上, 利用数据先验分布知识, 基于各属性中正负样本占比, 对属性识别的损失函数通过引入权重的方式进行了调整, 将式(17)改写为下式:
$ \begin{equation} \begin{aligned} {{L}^{g'}}=-\frac{1}{{{N}^{g}}}\sum\limits_{i=1}^{N}{\sum\limits_{k=1}^{{{K}^{g}}}{\omega _{k}^{g}\frac{l_{i, k}^{g}\log p_{i, k}^{g}}{N_{k}^{g}}}}, \text{ }g=1\cdots G \end{aligned} \end{equation} $
(22) $ \begin{equation} \begin{aligned} \omega _{k}^{g}=\exp \left( -\frac{p_{k}^{g}}{{{\sigma }^{2}}}\; \right) \end{aligned} \end{equation} $
(23) 其中, $\omega _{k}^{g}$是第$g$类属性中第$k$种属性的权重, $p_{k}^{g}$是第$k$种属性的数量占比, $\sigma $是用于调整权值的参数.同样的, 将网络整体损失函数更新为:
$ \begin{equation} \begin{aligned} L=\alpha {{L}^{ID}}+\left( 1-\alpha \right)\frac{1}{G}\sum\limits_{g=1}^{G}{{{L}^{g'}}} \end{aligned} \end{equation} $
(24) 4. 实验结果与分析
本节首先介绍实验中使用的测试数据和算法性能的评测准则, 其次介绍本文算法中的一些相关参数设置和选取实验, 然后在不同公开实验数据集上测试对各行人属性的识别结果, 最后介绍本文算法在不同公共实验数据集上与已有的行人再识别算法的性能比较.本文所有的实验是基于深度学习框架Matconvnet实现的, 实验平台是配备64 GB内存的Intel Core i7处理器和24 GB显存的Nvidia TITAN X显卡的GPU工作站.
4.1 数据集和评价指标
本文主要基于三个具有行人属性标注的行人再识别数据集进行实验, 分别是Market 1501、DukeMTMC数据集和PETA数据集, 其中的一些行人图片例子见图 2.
Market 1501数据集是由6个摄像机拍摄采集生成的大规模行人再识别数据集, 包含32 668张行人图片和3 368张查询集图片, 共有1 501个不同ID的行人, 对每个行人标注了27种行人属性.其中751个不同ID的行人作为训练集, 750个不同ID的行人作为测试集.在本文实验中, 使用其中的651个ID的行人作为训练集, 剩下的100个ID的行人作为验证集, 用于确定参数.
DukeMTMC数据集是由8个摄像机采集, 包含34 183张行人图片和2 228张查询集图片, 共有1 812个不同ID的行人, 其中1 404个不同ID的行人出现在不同摄像机拍摄视野中, 剩余的408个不同ID的行人是一些误导图片, 对每个行人标注了23种行人属性.根据数据集本身的划分, 其中702个不同ID的行人用于训练, 剩余的702个不同ID的行人用于测试.
PETA数据集是由19 000张行人图片组成, 图片分辨率分布在17$\times $39到169 $\times $ 365之间.这些行人图片共包含8 705个不同ID的行人, 每张行人图片标注了61个二值行人属性和4个多值行人属性.在本文实验中, 随机选取其中的9 500张行人图片作为训练集, 1 900张行人图片作为验证集, 7 600张行人图片作为测试集, 按照经典的数据集使用方式, 只选取其中标注数量最多的35个行人属性作为识别目标.
为了与已有算法公正比较, 实验中, 采用先前工作普遍采用的评价框架.将数据集事先划分为训练集和测试集, 其中测试集由查询集和行人图像库两部分组成.当给定一个行人再识别算法, 衡量该算法在行人图像库中搜索待查询行人的能力来评测此算法的性能.已有的行人再识别算法大部分采用累积匹配特性(Cumulative match characteristic, CMC)曲线评价算法性能, 给定一个查询集和行人图像库, 累积匹配特征曲线描述的是在行人图像库中搜索待查询的行人, 前$r$个搜索结果中找到待查询人的比率.首位匹配率$(r=1)$很重要, 因为它表示的是系统真正的识别能力.另外, 同时采用平均准确率(Mean average precision, mAP)评价算法性能, 平均准确率是对准确率和召回率的全面反映, 计算平均准确率时, 将准确率和召回率作为横纵坐标, 绘制曲线, 曲线包围的面积就是平均准确率的值, 该值最大时, 表示系统的准确率和召回率达到了最优.
4.2 网络参数与结构设置
本网络参数设置是在文献[11]的基础上微调而得的, 训练过程中设置批尺寸(Batch size)大小为64, epochs为55, 学习率初始值为0.001, 在最后5个epochs中, 调整为0.0001.各参数的微调过程具体见图 3.
参数$\alpha$.如图 3 (a)所示, 其中曲线代表了式(24)中的参数对准确率的影响, 当$\alpha$取不同值时, 网络的行人再识别准确率也随之发生变化.基于Market 1501数据集, 当网络不使用行人属性标签信息时(即$\alpha = 1$时), 首位匹配率是72.36%.当网络仅考虑行人属性标签信息时(即$\alpha = 0$时), 首位匹配率是76.81%.当$0.1\le\alpha\le0.9$时, 也就是同时考虑属性和ID标签信息时, 首位匹配率要普遍高于单独考虑这两者, 在$\alpha = 0.7$时, 首位匹配率达到最大值86.90%.基于DukeMTMC数据集, 当$\alpha = 1$时, 首位匹配率是60.34%.当$\alpha = 0$时, 首位匹配率是62.16%.在$\alpha = 0.7$时, 首位匹配率达到最大值72.83%.基于PETA数据集, 当$\alpha = 1$时, 首位匹配率是70.13%.当$\alpha = 0$时, 首位匹配率是65.24%.在$\alpha = 0.6$时, 首位匹配率达到最大值76.37%.综上考虑, 实验中取$\alpha = 0.7$.
迭代次数.如图 3 (b)所示, 其中曲线代表了当网络迭代不同次数时, 网络的首位匹配率变化情况.每迭代1 000次测试一次网络性能, 随着迭代次数达到8 000次左右, 网络性能基本稳定, 所以将网络的epochs设置为55.
属性选取. 图 3 (c)表示了Market 1501数据集去除不同属性后, 网络的再识别准确率.有些行人属性容易产生误检和漏检, 从而对行人再识别带来负效应, 所以考虑从数据集标注的行人属性中, 剔除一些具有负效应的属性.以所有属性参与训练得到的准确率作为基准, 每次去除一类属性, 得到识别准确率, 与基准进行对比, 其中横坐标为去除的属性.图 3 (d)表示了DukeMTMC数据集的实验结果.可以发现, 在Market 1501数据集中, 不使用是否有帽子这个行人属性, 再识别的准确率反而得到了提升, 主要因为帽子这个属性漏检的概率较大, 所以本文实验中不使用该属性.而在DukeMTMC数据集的测试结果表明, 减少任一行人属性后, 行人再识别的识别效果都会降低, 所以使用所有的属性.
全连接层$F{{C}_{0}}$.如图 3 (e)所示, 其中曲线代表了网络是否添加全连接层$F{{C}_{0}}$对网络准确率的影响.图中实线的趋势线代表添加了完整本文算法结果, 虚线的趋势线代表去除全连接层的本文算法, 可以发现, 添加了全连接层后, 本文提出的训练网络更加的稳定, 能更快的迭代到稳定值, 并且提升了算法在三个数据集上的首位匹配率.与本文算法完整算法相比, 去除全连接层后, 在Market 1501、DukeMTMC和PETA数据集上的首位匹配率分别下降了0.89%, 0.76%和1.31%.可以看出, 全连接层的添加对于本文算法的识别效果具有较大的提升作用.添加全连接层能够较明显改善识别效果的原因主要有如下两点: 1) 根据文献[13]的研究, 全连接层可以提高网络在微调后的判别能力, 使得网络在这三个常用数据集上的判别能力得到提升; 2) 本文采用的是残差网络, 不包含全连接层, 所以在添加了全连接层后, 丰富了网络结构, 从而提高特征提取能力, 进而提升了网络的识别效果.鉴于以上两点, 本文采用添加了全连接层$F{{C}_{0}}$的网络.
数据集间交叉识别. 如图 3 (f)所示, 其中实线代表了根据各自数据集的先验分布训练得到的网络进行数据集内识别结果(例:用数据集Market 3中的训练集训练得到的网络, 对数据集Market 1501中的测试集进行测试), 虚线表示基于三个数据集的先验分布训练的网络进行数据集间交叉识别的结果(例:用数据集DukeMTMC和PETA中的训练集分别训练得到的网络, 对数据集Market 1501中的测试集分别进行测试分别记为Market-D和Market-P, 后面的命名规则相同, 需要说明的是, 当待测数据集中含有训练数据集中没有的属性时, 从待测数据集的训练集中选取含有特殊属性的样本, 对训练集进行扩充以后再进行训练.); 实验结果表明, 数据集间交叉识别的性能相对于数据集内识别的性能是有轻微下降.对于数据集Market 1501来说, 利用数据集DukeMTMC和PETA中的训练集训练得到的网络, 在该数据集上测试得到的首位匹配率相比于数据集内识别结果, 分别下降了0.82%和1.13%;对于数据集DukeMTMC来说, 利用数据集Market 1501和PETA中的训练集训练得到的网络, 在该数据集上测试得到的首位准确率相比于数据集内识别结果, 分别下降了0.67%和1.38%;对于数据集PETA来说, 利用数据集Market 1501和DukeMTMC中的训练集训练得到的网络, 在该数据集上测试得到首位匹配率相比于数据集内识别结果, 分别下降了1.54%和1.78%.这主要是因为PETA中属性分布相对于Market 1501和DukeMTMC有较大的差异.但是相对于不考虑数据先验分布的APR网络, 数据集间交叉识别的性能还是有所提升, 在Market 1501, DukeMTMC和PETA数据集上, 首位匹配率分别至少提升了1.48%, 0.76%, 2.61%.所以, 在实际应用中, 在对待检测数据集属性分布不可知的情况下, 可以直接采用基于已有的数据集训练的网络实现行人再识别工作.
4.3 各属性的识别精度
本文基于三个通用行人属性数据集, 分别进行了行人属性的识别实验, 识别准确率如表 3~表 5所示.同样地, 选取APR网络的实验结果作为对比, 其中APR网络在PETA数据集上的结果是基于APR文献源代码复现得到.
表 3 Market 1501数据集各属性识别准确率(%)Table 3 Accuracy rate of each attribute recognition of Market 1501 dataset (%)属性 gender age hair L.slv L.low S.cloth B.pack H.bag bag C.up C.low mean APR 86.45 87.08 83.65 93.66 93.32 91.46 82.79 88.98 75.07 73.4 69.91 85.33 本文算法 86.73 88.14 84.12 93.5 94.54 91.86 85.99 90.67 82.36 77.83 73.82 86.32 表 4 DukeMTMC数据集各属性识别准确率(%)Table 4 Accuracy rate of each attribute recognition of DukeMTMC dataset (%)属性 gender hat boots L.up B.pack H.bag bag C.shoes C.up C.low mean APR 82.61 86.94 86.15 88.04 77.28 93.75 82.51 90.19 72.29 41.48 80.12 本文算法 82.73 89.02 87.17 89.33 81.33 95.81 86.74 93.12 73.04 43.21 82.15 表 5 PETA数据集各属性识别准确率(%)Table 5 Accuracy rate of each attribute recognition of PETA dataset (%)属性 gender age carry style hat hair shoes K.up K.low bag glasses mean APR 89.51 86.37 78.28 84.69 92.12 89.41 78.95 88.34 84.81 86.76 72.61 84.71 本文算法 90.11 85.32 85.39 85.43 92.63 88.6 82.32 88.97 86.82 88.06 78.33 88.54 首先, 从整体来看, 在这三个数据集上, 本文的识别准确率相较于APR网络都有了较大的提升, 平均准确率分别提升了0.99%、2.03%和3.83%, 就各属性来说, 识别准确率也都提升了0.12%~7.29%不等.这表示本文提出的网络相较于APR网络在行人属性识别上具有更好的性能.
其次, 从一些具有强数据不平衡的属性来看, 以Market 1501数据集为例, 其中是否有包这个属性, 识别准确率提高了7.29%, 提升程度比较大, 对于一些数据平衡的数据, 比如性别这个属性, 识别准确率只提高了0.28%.这表明本文提出的基于数据先验分布知识的权值调整策略, 对行人属性的提升具有明显的效果, 尤其是具有强数据不平衡的属性, 提升效果更为明显.
最后, 如图 4所示, 列举了两个行人属性识别结果的例子, 本文的网络会对行人所有的属性进行预测并打分, 可以发现, 左边行人的属性预测全部正确, 而右边行人的下衣种类和是否带手提包两个属性识别错误.
4.4 行人再识别结果
本文基于三个通用行人属性数据集, 进行了行人再识别实验, 实验结果如表 6~表 8所示.表中“*”表示原文献中没有公布相关数据, 本文使用其源码复现得到.其中“—”表示没有该项实验结果.
表 6 Market 1501数据集行人再识别结果Table 6 Re-id results of the Market 1501 dataset方法 rank-1 rank-5 rank-10 rank-20 mAP DADM[17] 39.4 - - - 19.6 MBC[18] 45.56 67 76 82 26.11 SML[19] 45.16 68.12 76 84 - DLDA[20] 48.15 - - - 29.94 DNS[21] 55.43 - - - 29.87 LSTM[8] 61.6 - - - 35.3 S-CNN[22] 65.88 - - - 39.55 2Stream[23] 79.51 90.91 94.09 96.23 59.87 GAN[13] 79.33 - - - 55.95 Pose[24] 78.06 90.76 94.41 96.52 56.23 Deep[25] 83.7 - - - 65.5 APR 84.29 93.2 95.19 97 64.67 本文-$F{{C}_{0}}$ 85.37 94.05 96.13 97.31 65.11 本文-归一化 84.92 93.75 95.92 97.46 64.82 本文-权重 85.67 94.69 96.75 97.94 65.23 本文-归一化+权重 86.31 94.97 97.10 98.01 65.46 本文 86.90 95.37 97.03 98.17 65.87 表 8 PETA数据集行人再识别结果Table 8 Re-id results of the PETA dataset方法 rank-1 mAP mA ikSVM[26] 41.12* 26.87* 69.5 MRFr2[27] 51.71* 30.77* 75.6 ACN[28] 59.04* 35.89* 81.15 DeepMAR[10] 64.58* 41.12* 82.6 WPAL[29] 68.14* 42.68* 85.5 APR 71.29* 45.31* 84.71* 本文-$F{{C}_{0}}$ 72.82 47.75 86.24 本文-归一化 73.63 47.86 87.01 本文-权重 73.14 47.51 87.28 本文-归一化+权重 74.57 49.69 88.05 本文 75.68 51.03 88.54 4.4.1 Market 1501数据集
首先, 针对本文提出的三个改进点分别做了对比实验, 在表 6中分别以“本文-$F{{C}_{0}}$”, “本文-归一化”, “本文-权重”代表基于APR网络单独添加这三处改进得到实验结果, “本文-归一化+权重”代表同时添加这两项改进得到的实验结果.可以发现, 相对于APR网络, 这4处改进在首位匹配率上都得到了提升, 分别提升了1.08%、0.63%、1.38%、2.02%, 其中添加了全连接层和改变权重对实验效果的提升比较明显, 对数据进行归一化也有一定提升.相应的平均准确率也有0.44%、0.15%、0.56%、0.79%的提升, 这说明三处改进对于提高行人再识别结果都有较大作用, 而且联合归一化和占比权重调整两处改进, 得到了较单独改进更好的实验效果, 说明两处改进之间具有互补之处.
其次, 在Market 1501数据集, 本文选取了DADM、MBC等经典方法进行对比.可以发现, 传统方法的首位匹配率普遍不是很高, 一般在50%以下.在使用深度学习方法以后, 准确率得到了一个巨大的提升, 而APR网络更是达到了84.29%的首位匹配率和64.67%的平均准确率.本文在APR网络的基础上, 进一步提高了识别的准确率, 达到了86.90%的首位匹配率和65.87%的平均准确率, 第5, 10, 20匹配率也有相应的提升.
4.4.2 DukeMTMC数据集
同样的, 针对本文提出的三个改进点分别做了对比实验.从表 7中可以发现, 相对于APR网络, 这四处改进在首位匹配率上都得到了提升, 分别提升了0.87%, 0.26%, 1.13%, 1.42%, 类似于Market 1501数据集的实验结果, 添加全连接层和改变权重对实验效果的提升比较明显, 相应的平均准确率也有0.48%, 0.25%, 0.79%, 0.96%的提升, 这说明对于该数据集, 这三处改进也有较好的实验效果.
其次, 针对DukeMTMC数据集, 由于使用该数据集的评测方法与Market 1501数据集不尽相同, 从中选取了BoW、LOMO等经典方法进行对比.可以发现, 这两种传统方法的效果不是很好.对抗学习达到了67.68%的首位匹配率. APR网络在该数据集达到了70.69%的首位匹配率和51.88%的平均准确率.本文在APR网络的基础上, 在该数据集上达到了72.83%的首位匹配率和53.42%的平均准确率.由于这几个方法没有提供第5、10、20匹配率, 所以在此不作对比.
4.4.3 PETA数据集
与前两个数据集相同, 针对本文提出的三个改进点分别做了对比实验.从表 8中可以发现, 相对于APR网络, 在这4处改进中分别提升了1.53%、2.34%、1.85%、3.28%, 类似于前两者的实验结果, 添加全连接层和改变权重对实验效果的提升比较明显, 相应的平均准确率也有1.53%、2.30%、2.57%、3.34%的提升, 由于该数据集各属性之间数量差异较大, 且属性内正负样本不平衡严重, 所以本文方法在此数据集上有较大提升.
其次, 针对PETA数据集, 很多方法是比较各属性的平均准确率(Mean accuracy, mA), 而不是比较rank-1和mAP的值, 所以本文一方面进行了mA的比较, 可以发现, 本文达到了88.54%的属性平均准确率, 较传统方法有了大幅度提升, 相对于APR网络也是有3.83%的提升.另一方面, 本文通过对文献源代码进行复现, 得到rank-1和mAP的值, 可以发现, 本文相对于APR网络和经典算法, 也是有较大的提升, 达到了75.68%的首位匹配率和51.03%的平均准确率.
综上可以得出, 本文提出的网络相对于一些经典方法, 在首位匹配率和平均准确率上都有很大的优势, 相较于APR网络也有较大的提升, 表明本文提出的基于数据先验知识的行人再识别网络, 对于行人再识别效果提升是有效的.如图 5所示的行人再识别结果的两个例子, 可以发现, 虽然存在一些误识, 但是总体识别效果已经达到较高的程度.
5. 结语
随着深度学习技术的发展和带属性标注行人数据集的出现, 近年来基于行人属性的行人再识别有效提升了识别精度.在已有研究基础上, 本文基于行人属性中的数据先验分布知识设计了新的用于行人属性识别和再识别的深度神经网络.实验结果验证了本文方法的有效性.但依旧没有充分挖掘数据集的内在信息, 实验效果还可进一步提高.后续工作将进一步研究如何在网络设计中融入属性之间的相关性和异质性.
-
表 1 Market 1501数据集中的属性类别
Table 1 The attribute category of Market 1501 dataset
属性类($G$) 属性 数量($K$) Gender male, female 2 Age child, teenager 4 Hair length long, short 2 Lower clothing length long, short 2 Lower clothing type pants, dress 2 Wearing hat yes, no 2 Carrying bag yes, no 2 Carrying backpack yes, no 2 Carrying handbag yes, no 2 Upper clothing color black, white, red$\cdots$ 8 Lower clothing color black, white, pink$\cdots$ 9 表 2 Market 1501数据集中行人属性训练样本数量及占比
Table 2 Statistics of Market 1501 dataset
属性 数量 占比 属性 数量 占比 upblack 113 0.15 male 431 0.57 upwhite 228 0.30 female 320 0.43 upred 78 0.10 short hair 506 0.67 uppurple 30 0.04 long hair 245 0.33 upyellow 36 0.05 long sleeve 39 0.05 upgray 86 0.11 short sleeve 712 0.95 upblue 46 0.06 long lower body 110 0.15 upgreen 56 0.07 short lower body 641 0.85 handbag no 665 0.89 dress 294 0.39 handbag yes 86 0.11 pants 457 0.61 young 14 0.02 downgray 123 0.16 teenager 569 0.76 downblack 293 0.39 adult 160 0.21 downwhite 58 0.08 old 8 0.01 downpink 29 0.04 bag no 566 0.75 downpurple 2 0.00 bag yes 185 0.25 downyellow 10 0.01 backpack no 552 0.74 downblue 123 0.16 backpack yes 199 0.26 downgreen 14 0.02 hat no 731 0.97 downbrown 69 0.09 hat yes 20 0.03 表 3 Market 1501数据集各属性识别准确率(%)
Table 3 Accuracy rate of each attribute recognition of Market 1501 dataset (%)
属性 gender age hair L.slv L.low S.cloth B.pack H.bag bag C.up C.low mean APR 86.45 87.08 83.65 93.66 93.32 91.46 82.79 88.98 75.07 73.4 69.91 85.33 本文算法 86.73 88.14 84.12 93.5 94.54 91.86 85.99 90.67 82.36 77.83 73.82 86.32 表 4 DukeMTMC数据集各属性识别准确率(%)
Table 4 Accuracy rate of each attribute recognition of DukeMTMC dataset (%)
属性 gender hat boots L.up B.pack H.bag bag C.shoes C.up C.low mean APR 82.61 86.94 86.15 88.04 77.28 93.75 82.51 90.19 72.29 41.48 80.12 本文算法 82.73 89.02 87.17 89.33 81.33 95.81 86.74 93.12 73.04 43.21 82.15 表 5 PETA数据集各属性识别准确率(%)
Table 5 Accuracy rate of each attribute recognition of PETA dataset (%)
属性 gender age carry style hat hair shoes K.up K.low bag glasses mean APR 89.51 86.37 78.28 84.69 92.12 89.41 78.95 88.34 84.81 86.76 72.61 84.71 本文算法 90.11 85.32 85.39 85.43 92.63 88.6 82.32 88.97 86.82 88.06 78.33 88.54 表 6 Market 1501数据集行人再识别结果
Table 6 Re-id results of the Market 1501 dataset
方法 rank-1 rank-5 rank-10 rank-20 mAP DADM[17] 39.4 - - - 19.6 MBC[18] 45.56 67 76 82 26.11 SML[19] 45.16 68.12 76 84 - DLDA[20] 48.15 - - - 29.94 DNS[21] 55.43 - - - 29.87 LSTM[8] 61.6 - - - 35.3 S-CNN[22] 65.88 - - - 39.55 2Stream[23] 79.51 90.91 94.09 96.23 59.87 GAN[13] 79.33 - - - 55.95 Pose[24] 78.06 90.76 94.41 96.52 56.23 Deep[25] 83.7 - - - 65.5 APR 84.29 93.2 95.19 97 64.67 本文-$F{{C}_{0}}$ 85.37 94.05 96.13 97.31 65.11 本文-归一化 84.92 93.75 95.92 97.46 64.82 本文-权重 85.67 94.69 96.75 97.94 65.23 本文-归一化+权重 86.31 94.97 97.10 98.01 65.46 本文 86.90 95.37 97.03 98.17 65.87 表 7 DukeMTMC数据集行人再识别结果
Table 7 Re-id results of the DukeMTMC dataset
表 8 PETA数据集行人再识别结果
Table 8 Re-id results of the PETA dataset
方法 rank-1 mAP mA ikSVM[26] 41.12* 26.87* 69.5 MRFr2[27] 51.71* 30.77* 75.6 ACN[28] 59.04* 35.89* 81.15 DeepMAR[10] 64.58* 41.12* 82.6 WPAL[29] 68.14* 42.68* 85.5 APR 71.29* 45.31* 84.71* 本文-$F{{C}_{0}}$ 72.82 47.75 86.24 本文-归一化 73.63 47.86 87.01 本文-权重 73.14 47.51 87.28 本文-归一化+权重 74.57 49.69 88.05 本文 75.68 51.03 88.54 -
[1] Farenzena M, Bazzani L, Perina A, Murino V, Cristani M. Person re-identification by symmetry-driven accumulation of local features. In: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010. 2360-2367 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5539926 [2] Pedagadi S, Orwell J, Velastin S, Boghossian B. Local fisher discriminant analysis for pedestrian re-identification. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013. 3318-3325 http://ieeexplore.ieee.org/document/6619270 [3] 种衍文, 匡湖林, 李清泉.一种基于多特征和机器学习的分级行人检测方法.自动化学报, 2012, 38(3):375-381 http://www.aas.net.cn/CN/abstract/abstract17688.shtmlChong Yan-Wen, Kuang Hu-Lin, Li Qing-Quan. Two-stage pedestrian detection based on multiple features and machine learning. Acta Automatica Sinica, 2012, 38(3):375-381 http://www.aas.net.cn/CN/abstract/abstract17688.shtml [4] Zheng W S, Gong S G, Xiang T. Person re-identification by probabilistic relative distance comparison. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2011. 649-656 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5995598 [5] 齐美彬, 檀胜顺, 王运侠, 刘皓, 蒋建国.基于多特征子空间与核学习的行人再识别.自动化学报, 2016, 42(2):299-308 http://www.aas.net.cn/CN/abstract/abstract18819.shtmlQi Mei-Bin, Tan Sheng-Shun, Wang Yun-Xia, Liu Hao, Jiang Jian-Guo. Multi-feature subspace and kernel learning for person re-identification. Acta Automatica Sinica, 2016, 42(2):299-308 http://www.aas.net.cn/CN/abstract/abstract18819.shtml [6] 于雪松, 刘家锋, 唐降龙, 黄剑华.基于概率模型的行人四肢自遮挡的检测.自动化学报, 2010, 36(4):610-615 http://www.aas.net.cn/CN/abstract/abstract13712.shtmlYu Xue-Song, Liu Jia-Feng, Tang Xiang-Long, Huang Jian-Hua. Estimating the pedestrian 3D motion indoor via hybrid tracking model. Acta Automatica Sinica, 2010, 36(4):610-615 http://www.aas.net.cn/CN/abstract/abstract13712.shtml [7] Li W, Zhao R, Xiao T, Wang X G. Deepreid: deep filter pairing neural network for person re-identification. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014. 152-159 https://ieeexplore.ieee.org/document/6909421 [8] Varior R R, Shuai B, Lu J W, Xu D, Wang G. A siamese long short-term memory architecture for human re-identification. In: Proceedings of the 2016 European Conference on Computer Vision. Cham, Switzerland: Springer, 2016. 135-153 [9] Liu H, Feng J S, Qi M B, Jiang J G, Yan S C. End-to-end comparative attention networks for person re-identification. IEEE Transactions on Image Processing, 2017, 26(7):3492-3506 doi: 10.1109/TIP.2017.2700762 [10] Li D W, Chen X T, Huang K Q. Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios. In: Proceedings of the 3rd IAPR Asian Conference on Pattern Recognition (ACPR). Kuala Lumpur, Malaysia: IEEE, 2015. 111-115 http://ieeexplore.ieee.org/document/7486476/ [11] Lin Y T, Zheng L, Zheng Z D, Wu Y, Yang Y. Improving person re-identification by attribute and identity learning[Online], available: http://arxiv.org/abs/1703.07220, June 14, 2018. [12] Zheng L, Shen L Y, Tian L, Wang S J, Wang J D, Tian Q. Scalable person re-identification: a benchmark. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 1116-1124 http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=7410490 [13] Zheng Z D, Zheng L, Yang Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[Online], available: http://arxiv.org/abs/1701.07717, June 14, 2018. [14] Zhang C L, Luo J H, Wei X S, Wu J X. In defense of fully connected layers in visual representation transfer. In: Proceedings of the 2017 Pacific-Rim Conference on Multimedia. Harbin, China: Springer-Verlag, 2017. 807-817 doi: 10.1007/978-3-319-77383-4_79 [15] Visin F, Kastner K, Cho K, Matteucci M, Courville A, Bengio Y. ReNet: a recurrent neural network based alternative to convolutional networks[Online], available: http://arxiv.org/abs/1505.00393, June 14, 2018. [16] Liao S C, Hu Y, Zhu X Y, Li S Z. Person re-identification by local maximal occurrence representation and metric learning. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 2197-2206 http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=7298832 [17] Su C, Zhang S L, Xing J L, Gao W, Tian Q. Deep attributes driven multi-camera person re-identification. In: Proceedings of the 2016 European Conference on Computer Vision. Cham: Springer, 2016. 475-491 doi: 10.1007/978-3-319-46475-6_30 [18] Ustinova E, Ganin Y, Lempitsky V. Multi-region bilinear convolutional neural networks for person re-identification. In: Proceedings of the 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. Lecce, Italy: IEEE, 2017. 1-6 http://arxiv.org/abs/1512.05300 [19] Jose C, Fleuret F. Scalable metric learning via weighted approximate rank component analysis. In: Proceedings of the 2016 European Conference on Computer Vision. Cham: Springer, 2016. 875-890 doi: 10.1007/978-3-319-46454-1_53 [20] Wu L, Shen C H, van den Hengel A. Deep linear discriminant analysis on fisher networks:a hybrid architecture for person re-identification. Pattern Recognition, 2017, 65:238-250 doi: 10.1016/j.patcog.2016.12.022 [21] Zhang L, Xiang T, Gong S G. Learning a discriminative null space for person re-identification. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1239-1248 [22] Varior R R, Haloi M, Wang G. Gated siamese convolutional neural network architecture for human re-identification. In: Proceedings of the 2016 European Conference on Computer Vision. Cham, Switerland: Springer, 2016. 791-808 doi: 10.1007/978-3-319-46484-8_48 [23] Zheng Z D, Zheng L, Yang Y. A discriminatively learned CNN embedding for person reidentification. ACM Transactions on Multimedia Computing, Communications, and Applications, 2018, 14(1):Article No.13 https://arxiv.org/abs/1611.05666 [24] Zheng L, Huang Y J, Lu H C, Yang Y. Pose invariant embedding for deep person re-identification[Online], available: http://arxiv.org/abs/1701.07732, June 14, 2018. [25] Geng M Y, Wang Y W, Xiang T, Tian Y H. Deep transfer learning for person re-identification[Online], available: http://arxiv.org/abs/1611.05244, June 14, 2018. [26] Maji S, Berg A C, Malik J. Classification using intersection kernel support vector machines is efficient. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA: IEEE, 2008. 1-8 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=4587630 [27] Deng Y B, Luo P, Loy C C, Tang X O. Learning to recognize pedestrian attribute[Online], available: http://arxiv.org/abs/1501.00901, June 14, 2018. [28] Sudowe P, Spitzer H, Leibe B. Person attribute recognition with a jointly-trained holistic CNN model. In: Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops. Santiago, Chile: IEEE, 2015. 329-337 http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=7406400&navigation=1 [29] Yu K, Leng B, Zhang Z, Li D W, Huang K Q. Weakly-supervised learning of mid-level features for pedestrian attribute recognition and localization[Online], available: http://arxiv.org/abs/1611.05603, June 14, 2018. 期刊类型引用(9)
1. 刘义鹏,曾东旭. 眼底数据频域增强算法. 小型微型计算机系统. 2024(01): 177-184 . 百度学术
2. 李纬,吴聪. 基于多级残差多尺度的医学图像分割网络. 湖北工业大学学报. 2023(01): 38-42 . 百度学术
3. 张艳,相旭,唐俊,王年,屈磊. 跨模态行人重识别的对称网络算法. 国防科技大学学报. 2022(01): 122-128 . 百度学术
4. 杜鹏,宋永红,张鑫瑶. 基于自注意力模态融合网络的跨模态行人再识别方法研究. 自动化学报. 2022(06): 1457-1468 . 本站查看
5. 范苍宁,刘鹏,肖婷,赵巍,唐降龙. 深度域适应综述:一般情况与复杂情况. 自动化学报. 2021(03): 515-548 . 本站查看
6. 杜卓群,胡晓光,杨世欣,李晓筱,王梓强,蔡能斌. 基于多源信息的行人再识别研究综述. 计算机工程与应用. 2021(14): 1-14 . 百度学术
7. 杨晓峰,张来福,王志鹏,萨旦姆,邓红霞,李海芳. 基于胶囊网络的跨域行人再识别. 计算机工程与科学. 2021(09): 1591-1599 . 百度学术
8. 姚足,龚勋,陈锐,卢奇,罗彬. 面向行人重识别的局部特征研究进展、挑战与展望. 自动化学报. 2021(12): 2742-2760 . 本站查看
9. 卢健,陈旭,罗毛欣,王航英. 深度学习行人再识别研究综述. 激光与光电子学进展. 2020(16): 37-54 . 百度学术
其他类型引用(13)
-