-
摘要: 遮挡及背景中相似物干扰是行人检测准确率较低的主要原因. 针对该问题, 提出一种结合语义和多层特征融合(Combining semantics with multi-level feature fusion, CSMFF)的行人检测算法. 首先, 融合多个卷积层特征, 并在融合层上添加语义分割, 得到的语义特征与相应的卷积层连接作为行人位置的先验信息, 增强行人和背景的辨别性. 然后, 在初步回归的基础上构建行人二次检测模块(Pedestrian secondary detection module, PSDM), 进一步排除误检物体. 实验结果表明, 所提算法在数据集Caltech和CityPersons上漏检率(Miss rate, MR)为7.06 %和11.2 %. 该算法对被遮挡的行人具有强鲁棒性, 同时可方便地嵌入到其他检测框架.Abstract: Occlusion and similar objects in the background typically degrade the accuracy of pedestrian detection. To solve the above problems, this paper proposes a pedestrian detection algorithm that combines semantics with multi-level feature fusion (CSMFF). Firstly, multi-convolutional-layer features are fused, and semantic segmentation is added to the fusion layer. The obtained semantic features are connected to the corresponding convolutional layers as the prior information of the pedestrian target location, which enhances the discrimination between pedestrian and background. Based on the preliminary regression, a pedestrian secondary detection module (PSDM) is constructed to further eliminate false positives. The experimental results show that the miss rates (MR) of the proposed algorithm on the datasets Caltech and CityPersons are 7.06 % and 11.2 %, respectively. The algorithm has strong robustness to occluded pedestrians, and can be easily embedded into other detection frameworks.
-
Key words:
- Pedestrian detection /
- semantic segmentation /
- feature fusion /
- occlusion /
- secondary detection
-
人体健康体细胞内有23对染色体, 包括22对常染色体和一对性染色体. 核型分析通常对分裂中期的染色体进行扫描、拍摄、处理、分割后, 获得染色体核型图用于染色体的分类及异常识别, 为染色体变异相关疾病的诊断及未知基因型疾病的发现提供有力参考. 因此, 核型分析已广泛应用于体外胚胎的细胞遗传学分析、产前诊断以及遗传病诊断. 但目前其分割、分类、识别等各个步骤均严重依赖核型专家的人工分析, 耗时耗力且依赖于经验. 因此, 不少学者开始研究相关的自动方法.
作为核型分析的核心环节, 染色体分类一直是核型分析领域的研究重点. 人类正常体细胞内不同类别的染色体形态相似, 但细节纹理部分差异显著; 且由于染色体的非刚性特点, 各染色体长短臂可以呈现出不同的弯曲状态. 针对核型图开展的染色体分类识别工作经历了传统方法[1-4]和基于卷积神经网络(Convolutional neural network, CNN)[5]方法两大发展阶段. 传统的染色体的自动分类方法一般由3个步骤构成[6-8], 包括提取染色体中心轴、根据中心轴提取分类特征以及设计分类器[9]. 其中, 染色体中心轴的提取取决于染色体的弯曲程度, 并决定后续的特征提取及处理. 因此传统方法在处理弯曲染色体时, 往往先作拉直处理, 再提取中心轴. 传统算法的各个环节具备较高的可解释性, 但算法整体环节多、复杂度高, 分类效果严重依赖中心轴的提取. CNN的提出为图像处理等领域开辟了新的天地[10-12], 设计合理的CNN模型能够自主地挖掘数据中的有用特征, 完成各类复杂任务, 并陆续应用于染色体图像的处理. 如Sharma等[13]、Swati等[14]提出了基于CNN的提取染色体特征分类方法. Sharma等[13]针对不同染色体的弯曲点和弯曲程度不同的问题, 先用传统方法[15]将染色体拉直, 然后再送入到卷积神经网络里进行分类, 对比是否进行拉直处理的实验分别获得68.5%和86.7%的分类准确率. Swati等[14]同样认为染色体弯曲给分类带来极大的困难. 因此采用提取中心轴和众包的方式拉直染色体, 然后再送入到孪生网络中进行染色体分类, 未拉直与拉直的准确率分别为68.5%与85.5%. 这些方法未能端到端的完成任务, 且准确率远远未达到要求. 而Zhang等[16]提出了一种基于利用改进的高分辨率网络模型预测弯曲染色体节点并分类的多任务方法. 该方法获得了98.1%的准确率, 但是需要预先标注弯曲节点, 花费大量人工成本. Qin等[17]提出的方法不做染色体拉直的预处理, 直接在高达
87 831 幅手工标注的G带图上使用Variafocal-Net模型, 可获得98.9%的准确度. 该模型采用两个残差模型串联, 第一个残差模型训练分类的同时学习一个坐标, 用于从原图切分出一个局部, 这个局部再提取特征进行分类. 而该数据集仅残差网络(Residual neural network, ResNet)[18]就得到96.9%的准确度. 由于该模型没有针对染色体弯曲问题设计, 在面对无法提供海量训练数据的实际问题时, 较难达到预期的性能. 为应对数据量少的情况, Wu等[19]提出应用生成对抗网络生成染色体图像, 然后再送入到CNN中进行分类. 由于生成的数据和真实数据仍有区别, 效果提升有限, 其在5474 幅图像上的准确率为58.9%, 扩充250倍后可提升至63.5%. 染色体弯曲问题可通过大量的数据集来解决, 但是大数据集标注代价高昂. 因此, 针对小规模染色体数据集, 开发一种有效提升染色体识别性能的分类方法非常重要.染色体核型图的分类、识别任务具有类间差距小、类内差距大的特点, 因此其分类任务可借鉴自然图像的细粒度分类任务[5, 20]. 目前细粒度分类任务多通过仅基于图像级标签实现的弱监督分类和带有边界框、零件关键点等先验信息的强监督分类两种思路实现[21]. 在弱监督分类算法方面, 基于显式特征映射的池化框架利用核函数能够较好地捕捉CNN提取特征间的高阶信息, 提升细粒度分类精度, 但局部特征的提取方法仍有待改善[22]. 基于两个CNN特征抽取器建立的双线性模型框架以平移不变的方式对局部成对特征进行提取, 获得的特征更精细, 但特征之间较难建立有效的关联, 且模型参数量太大, 不利于模型的实际应用[23]. 另有一些破坏与重构学习模型和循环注意力卷积神经网络模型[24-25], 通过强化局部特征对分类任务的贡献, 更好地习得具有判别性的特征, 提高分类的准确性, 但也未能充分建立局部特征间的有效关联. 而在强监督分类方面, Wei等[26]建立全卷积网络结构, 基于细粒度图像的局部标注定位有区别的部分, 并生成目标及对应掩码, 提取辨别性较高的特征. 在此基础上, 进一步搭建四路掩膜CNN模型, 聚合提取出的特征, 构建高精度分类器. 但强监督分类需额外标注, 代价太大.
综上所述, 已有的染色体分类方法和细粒度分类思想在训练样本的数量、质量及模型对图像的局部特征提取能力、局部特征的综合利用程度、计算量和最终准确度方面都存在一定的局限. 为此, 本文针对染色体弯曲及类内差距大、类间差距小导致的分类难题, 基于微分思想建立网格重构学习(Grid reconstruction learning, GRiCoL)模型提取细粒度局部特征, 在不增加额外标注要求前提下有效提高分类性能. 结果表明, GRiCoL可有效提高染色体分类精度, 在G带、荧光原位杂交(Fluorescence in situ hybridization, FISH)、Q带三个公共图像库上的分类准确率分别达到0.995, 0.973和0.972.
1. 本文方法
本文提出如图1所示的GRiCoL模型实现染色体的自动分类. 首先将染色体图像网格化, 使得骨干网络获得相对平直的染色体图像块, 从而解决染色体弯曲导致的类内差距大、类间差距小问题, 同时, 骨干网络能够学习到更多的局部细节特征. 但网格化会破坏染色体结构的完整性, 因此再设计网格重构模块, 强化各个分块特征之间的联系并突出具有区分性的细节特征. 通过上述染色体图像网格化及网格重构两个部分, 有效提高染色体分类的准确率.
1.1 网格学习
染色体柔性易弯曲的特性给其分类带来较大挑战. 针对此问题, 本文基于微分近似的思想, 将待分类染色体图像进行网格化处理, 切分成多个相对平直的局部区域, 以降低染色体弯曲对特征提取带来的干扰.
以图2所示切分过程为例, 首先输入图像$ {{I}} $划分为$ N \times N $个网格. 若N过小, 网格切分过粗会保留明显弯曲区域, 如图2(a)所示. 随着N的增加, 染色体弯曲的局部在网格内逐渐接近非弯曲状态, 与该染色体非弯曲状态下对应局部相比, 仅存在角度的差异, 如图2(b)所示. 但若N过大, 会产生过多的空白网格, 引入过多无效特征, 如图2(c)所示. 考虑染色体图像的一般分布, 本文设定N = 3, 得到的9个网格分别用${{{R}}_{{k}}}$, $ k \in \left[ {1,9} \right] $表示. 其中, 从左上角${{{R}}_1}$开始按顺时针方向编号至${{{R}}_{\text{8}}}$, 中间网格编号为$ {{{R}}_9} $. 然而, 简单的网格切分会导致网格间关联信息的丢失. 因此, GRiCoL在切割时在相邻网格邻接处设置交叠区域, 以保留各网格间的结构特征, 如图2(d)所示.
1.2 网格重构及特征提取
与自然图像不同, 染色体图像类间(特别是局部区域)差异小的鲜明特点导致任何局部网格均无法独立涵盖原染色体的主体语义信息. 因此, GRiCoL在提取独立网格特征的同时, 也需具备感知染色体局部和整体间隶属关系的能力. 切分时特意保留的相邻网格间的重叠冗余信息一定程度上保留了全局结构. 但若特征的提取偏向重叠区域, 则无法获得全局最优解, 影响后续分类的准确率. 为此, GRiCoL特别设计了网格重构模块, 补偿网格化导致的全局特征丢失.
GRiCoL首先采用共享权重${\boldsymbol{\Theta}}$的残差网络$ {\boldsymbol{y}}={\boldsymbol{F}}( \cdot ) $, 通过两条支路分别提取特征图后再经全局平局池化获得网格局部特征${{\boldsymbol{y}}_{{{1 \sim 9}}}}$及全局特征$ {{\boldsymbol{y}}_{{I}}} $.
$$ {{\boldsymbol{y}}_{{k}}}={\boldsymbol{F}}({\boldsymbol{\Theta }},{{{R}}_{{k}}}),\;\;k \in \{ 1\sim 9,\;I\} $$ (1) $ {{{R}}_I} $为降维变换后的全局图像; $ {{\boldsymbol{y}}_{{k}}} $为残差网络提取的特征向量, 其通道数C由残差网络输出层卷积核数量决定.
随后, GRiCoL通过图3所示的注意力机制重构网络[27]. 每个网格对最终分类贡献的权重由式(2)训练获得, 并构造特征向量$ {{\boldsymbol{v}}_{{k}}} $.
$$ {{\boldsymbol{v}}_k}=\frac{1}{{1 + \exp ({{\boldsymbol{w}}_k} \times {{\boldsymbol{y}}_k} + {{\boldsymbol{b}}_k})}} \otimes {{\boldsymbol{y}}_k} $$ (2) 其中, ${{\boldsymbol{w}}_k}$和${{\boldsymbol{b}}_{k}}$为网格k的模型权重和偏置参数; “$\otimes $”表示哈达玛乘法.
局部特征的重组通过两个分支实现. 一方面, 通过式(3)融合相邻网格筛选后的特征加强关联, 并进一步进行特征筛选.
$$ {{\boldsymbol{Y}}_{{k}}}={{\boldsymbol{w}}_{{k}}'}({{\boldsymbol{y}}_{{k}}} + {{\boldsymbol{v}}_{{{k}} - 1}}) + {\boldsymbol{b}}_{{k}}' $$ (3) 此处, $ {\boldsymbol{v}}_{{{k}} - 1}^{} $是${{\boldsymbol{y}}_{{{k - 1}}}}$的特征筛选结果, ${\boldsymbol{w}}_{{k}}',$ ${\boldsymbol{b}}_{{k}}'$为全连接层的参数.
另一方面, $N\times N $个$C $通道特征向量$ {\boldsymbol{v}}_{{k}}^{} $按照切分顺序, 重组为$N\times N\times C$的特征图, 再通过最大池化得到全局特征, 即
$$ {\boldsymbol{Y}}_{{0}}^{}=\max ({\boldsymbol{v}}_{{k}}^{{m}}),\;\;\;{{m}} \in [1,{{C}}] $$ (4) 1.3 损失函数设计
待分类的图像中, 染色体多处于图像的中部, 而各网格覆盖区域不同, 包含染色体的信息量会有所区别, 因此, 对分类的贡献度也就有差异. 所以, 在训练过程中, GRiCoL采用式(5)设置上支路各特征的损失权重${{w}}_{{k}}''$.
$$ w''_k\\=\left\{ {\begin{aligned} &k,\qquad\;\,k \in \left\{ {1\sim 9} \right\} \\ &10,\qquad k=0 \end{aligned}} \right. $$ (5) 其中, $ {{\boldsymbol{Y}}_{\text{0}}} $作为全局特征, 权重最大. 此外, 由于$ {\boldsymbol{v}}_{{k}}^{} $总是包含$ {\boldsymbol{v}}_{k - 1}^{} $的信息, 因此特征$ {{\boldsymbol{Y}}_{{{1\sim 9}}}} $按顺时针方向, 其损失权重依次增大. 而下支路学习整幅图像, 训练初始赋予较大权重. 因此模型采用比例因子$\beta $调节上下支路的权重比例. 训练初始下支路损失$L_I$权重大, 当训练轮次$e$达到$\lambda $后, 上下支路逐渐上升至相当权重. 总的损失函数如式(6)所示.
$$ {L_{{s}}}=\sum\limits_{k=0}^9 {\min (1,\exp (e - \lambda )} + {w_k''}\times\beta ){{L}_{{k}}} + {L_{{I}}} $$ (6) 其中, ${{L}_{{k}}} ,\; {L_{{I}}} $均可通过式(7)计算交叉熵得到, 即
$$ L=\frac{1}{B}\sum\limits_{b=1}^B {{t_{{b}}}\log ({p_{{b}}})} $$ (7) 其中, $B $表示网格$k $或者全局$ I$中像素的个数, $t_b $表示第$b $个像素所属的真实类别, $p_b $则表示模型对该像素的判别类别.
1.4 GRiCoL的实现步骤
模型训练样本由原始输入图像$I $及其对应染色体编号$ t $构成, 记为$\langle {{I}},{{t}} \rangle$, $t \in \{ 1, \cdots,22,{{X,Y}}\}$. GRiCoL模型即通过函数${\boldsymbol{p}}={{\Phi }}({{I}},{{\Omega}} )$将输入图像$I $映射为其属于各类染色体的概率向量${\boldsymbol{p}}$, 其中, $\Omega $(包含${\boldsymbol{\Theta}})$表示分类模型中所有的可学习参数.
步骤 1. 将完整图像$I $切分成9个相同尺寸的网格$\{ {{{R}}_{{k}}}\} ,{{k}} \in [1,9]$. 同时, 通过卷积将完整图像$I $下采样至网格同尺寸, 表示为${{{R}}_{{I}}}$.
步骤 2. 将$ \{ {{{R}}_{{I}}},{{{R}}_{{k}}}\} $分别送入残差卷积单元(各单元共享权重), 得到全局特征$ {{\boldsymbol{y}}_{{I}}} $及网格特征向量${{\boldsymbol{y}}_{{k}}}$.
步骤 3. 特征向量${{\boldsymbol{y}}_{{k}}}$经过重构网络, 得到重构后的特征${{\boldsymbol{Y}}_{{k}}},{{k}} \in [0,9]$.
步骤 4. 利用线性分类器对重构特征${{\boldsymbol{Y}}_{{k}}}$以及完整图像特征$ {{\boldsymbol{Y}}_{{I}}}={{\boldsymbol{y}}_{{I}}} $进行分类, 得到11个分类概率向量${\boldsymbol{p}}$.
步骤 5. 基于分类概率向量${\boldsymbol{p}}$完成分类并计算交叉熵损失.
步骤 6. 采用自适应动量估计优化器优化网络参数.
步骤 7. 推理时, 待分类图像${{I}}$无需切分, 直接通过模型下支路完成染色体分类识别.
2. 实验与分析
为了测试GRiCoL的性能及对不同显带技术的适应能力, 本文采用3组公开数据集对模型进行评估. 训练及测试的硬件环境为Nvida 2080Ti GPU, 软件环境为Centos7及PyTorch 1.3.1.
2.1 实验数据库
本文分别在G带[28]、FISH图像[29]和Q带[30]三个染色体公共库上开展实验及分析.
考虑到不同数据库样本及残差网络模块等的特点, GRiCoL模型采用填充、线性插值等方法, 将所有图像的高、宽及通道数调整为$448\times456\times1 $, 作为GRiCoL模型的输入. 其中, G带图像库包含来自65个细胞(33名男性、32名女性)通过Giemsa染料染色后的
2986 幅染色体图像, 原始尺寸为$224\;\times $224像素, 直接通过双线性插值的方式将图像调整至$448\times456 $像素, 该类图像沿染色体中心轴呈现出较清晰的深浅相间带纹, 如图4(a)所示. FISH图像库包含来自91个细胞(30名男性、61名女性)通过荧光染色成像的4184 条染色体图像, 原始图像大小均为$100\times200 $像素, 首先通过补0扩增至$224\times224 $像素, 再采用双线性插值调整为$448\times456 $像素, 该组图像无带纹标记, 如图4(b)所示. Q带图像库则包含来自119个细胞(45名男性、74名女性)的通过喹吖因荧光染料染色的5474 幅大小不一的图像, 图像首先填充至$224\times224 $像素, 再通过双线性插值调整为$448\times456 $像素, 该组图像的染色体则呈现亮暗不同的带纹, 如图4(c)所示.2.2 评估方法
本文从分类准确率和特征提取能力两方面对GRiCoL模型进行性能评价. 模型的分类准确率${{{A}}_{{r}}}$定义为式(8)[31].
$$ {{{A}}_{{r}}}=\frac{{{{{T}}_{{d}}}}}{{{{{N}}_{{d}}}}} $$ (8) 其中, ${{{T}}_{{d}}}$表示预测正确的正样本数量, ${{{N}}_{{d}}}$表示测试集的样本数量.
特征有效性的评估采用了导向反向传播[32]以及t-SNE (t-distributed stochastic neighbor embedding)[33]数据降维两种方式. 其中, 导向反向传播利用输出相对于输入的梯度信息, 限制小于0的梯度信息回传. 在进行特征显示时, 将原图和梯度信息相结合, 以此显示出梯度大于0所对应位置的特征区域, 从而凸显出有区分度的特征. t-SNE对模型提取的
1024 维特征向量非线性降维, 将其映射到2维空间表示, 观察各类样本的分布.2.3 实验及结果分析
考虑染色体图像大多为背景内容简单的灰度图, 最多包含24种类别, 与自然图像分类任务相比计算规模较小, GRiCoL对骨干网络ResNet50进行精剪, 减少50%残差模块卷积核的通道数, 获得
1024 维的特征向量输出. 在模型训练过程中, 初始学习率设置为0.001, 每次输入图像28幅, 权重比例$\beta $为0.1, $\lambda $为150. 综合考虑模型性能的提升及计算负荷, GRiCoL在对染色体图像分类推理时, 可选择只采用下支路. 与上下支路同时使用的模型相比, 分类准确率会稍有下降, 但会大大降低推理负荷.本文首先通过实验比较图像切分过程中有无交叠对最终分类性能的影响, 并通过t检验的p值对比两种模型的100次运行结果的差异性, 结果如表1所示.
表 1 交叠网格设计的分类性能对比Table 1 Classification performance comparison between grid with and without overlapping模型 G带 FISH Q带 无交叠 GRiCoL 98.1% 96.2% 95.3% GRiCoL 99.5% 97.2% 97.3% p值 2.66e−22 0.52 1.71e−8 可以看出, 在G带和Q带两组数据库上, 含有交叠分块的GRiCoL方法与没有交叠的方法的分类性能表现出显著差异; 而FISH图数据库上, 两者没有明显区别. 进一步深入分析可知, G带图和Q带图均呈现明显的条带特征, 因此, 通过含有交叠分块的GRiCoL方法强化了更多的分类相关特征信息, 因而有助于提高其分类的性能, 而FISH图像基于荧光技术, 局部的分类相关特征较少. 也就是说, 本文所提GRiCoL方法更适用于细节特征丰富的染色体图像的分类.
因此, 本文后续均采用交叠切分设计, 在此基础上, 进一步分析网格切分参数$N $对性能的影响, 结果如表2所示.
表 2 不同N数量下分类性能的对比Table 2 Classification performance comparison between grids with different NN G带(%) FISH (%) Q带(%) Gflops 参数量(M) 2 98.5 96.1 95.8 11.5 22.1 3 99.5 97.2 97.3 26.0 27.5 4 99.2 97.8 97.6 46.3 35.0 可以看出, 当$N = 3 $或$N = 4 $时, GRiCoL的分类性能明显优于$N = 2 $, 但是$N=4 $时, 由于网格数目的增加, 导致模型训练和推理的计算量与参数量增加. 因此, GRiCoL模型对图像实行$3\times3 $交叠切分, 且每个网格均为$224\times224 $, 行方向的切割点设定在112、224, 列方向的切割点设定在120、232. 此时, 第1行网格的下沿和第3行的上沿相邻, 在避免染色体过度弯曲导致过多空白网格的同时强化了各网格间的关联.
本文以ResNet50作为骨干网络的算法为基线[34-35]. 具体地, 文献[34]对ResNet50中第4层的3个block输出的特征图水平切分. 第1个block分别切分为8份和4份; 第2个block切分成2份; 第3个不切分, 全局平均池化后再利用卷积对通道降维, 最后将15个特征向量通道拼接分类; 文献[35]则将图像分成4个象限及中心, 外加完整图像分别通过ResNet50骨干网络提取特征, 再按照卷积通道拼接并分类. 此外, 为比较GRiCoL与现有同类任务的性能及重构模块的作用, 本文在3组图像数据上分别实现了CIR-Net (Classification inception ResNet)[28]、ResNet50等8种方法, 并进行5折交叉验证实验. 其中, 网格学习模型(GRid Learning, GRiL)去除上支路中重构网络, 仅保留GRiCoL模型的完整下支路. 8种方法在3个公共图像库上的分类结果如表3所示.
可以看出, 基于网格划分的方法GRiL、GRiCoL通过网格局部和图像整体的细粒度特征提取, 有效克服了弯曲造成的分类难题, 提高了分类性能. 比较GRiL和GRiCoL的分类结果可以看出, 重构模块有效补偿了网格化导致的全局特征丢失, 进一步提高了各染色体图像的分类性能. 基线方法切分图像时未考虑染色体弯曲的情况及各切分块局部特征间的联系, 导致错分概率较大.
本文尝试通过导向反向传播对模型GRiCoL、GRiL和ResNet50提取的特征进行进一步解析. 图5(a)为对上述3种模型提取的G带图分类特征. 可以看出, ResNet50所提取的特征与原图简单重复, 且携带有明显的噪声. 相对而言, GRiCoL所提取的特征则更为丰富、清晰. 图5(b)和图5(c)分别为3种模型提取的FISH图和Q带图分类特征. 可明显看出, ResNet50所提取的特征过分强调了图像的边缘, 但这些边缘并非有效的染色体分类特征, 而是掺杂了图像原始处理时产生的噪声. 因此, 本文方法提取的特征更加关注有区分度的细节, 是更有区分度的特征.
为进一步比较3种模型提取特征的分类性能, 本文基于t-SNE方法对各图像库中同一染色体图像的分类特征降维表示, 如图6所示. 可以看出, ResNet50提取的G带图特征分布分散, 类间明显混合, GRiL与GRiCoL提取的特征类内明显集中, 且GRiCoL的类间间距明显大于GRiL. 这与表3中G带图分类ResNet50准确率最低、GRiCoL最高相吻合. 而对FISH图像和Q带图像, ResNet50所提取的特征类内间距也很小, 但类间混杂较为严重, GRiL与GRiCoL尽管类内间距没有ResNet50提取的特征表现得那么紧凑, 但类间区别明显, 这也是GRiCoL模型在FISH图像库能够取得最佳分类性能的原因.
3. 结束语
染色体由于其柔性易弯曲的特点, 目前其自动分类存在较大困难. 为解决该问题, 本文提出GRiCoL模型, 利用微分思想对染色体图像进行合理切分, 弱化弯曲的影响, 通过残差网络、重构网络等模块提取特征后, 完成分类模型的构建. 本文分别基于G带图、FISH图和Q带图三个染色体公共图像库对GRiCoL模型进行训练和评估, 对比实验结果显示, 本文提出的GRiCoL能够有效提高染色体图像的分类准确率, 且表现出更强的泛化能力及对不同显带成像技术的适应性. 此外, GRiCoL模型可以在较小的数据集上完成有效的训练, 所提取的特征也呈现出较好的解释性. 因此, 本文所提出的GRiCoL网络模型能够较好地解决弯曲染色体的分类问题, 并为染色体的端到端自动核型分析提供新的思路.
-
表 1 Caltech数据集中部分子集的划分标准
Table 1 Evaluation settings for partial subsets of the Caltech dataset
子集 行人高度 (Height) 行人被遮挡程度 (Occlusion) Reasonable $ > $50 PXs occ$ < $0.35 Partial $ > $50 PXs 0.10$ < $occ$ \le $0.35 Heavy $ > $50 PXs 0.35$ < $occ$ \le $0.80 表 2 CityPersons数据集中部分子集的划分标准
Table 2 Evaluation settings for partial subsets of the CityPersons dataset
子集 行人高度 (Height) 行人被遮挡程度 (Occlusion) Bare $ > $50 PXs occ$ \le $0.10 Reasonable $ > $50 PXs occ$ < $0.35 Partial $ > $50 PXs 0.10$ < $occ$ \le $0.35 Heavy $ > $50 PXs 0.35$ < $occ$ \le $0.80 表 3 在Caltech测试数据集上对比算法性能以及运行速度比较
Table 3 Performance and runtime comparisons of our proposed CSMFF with state-of-the-art approaches on the Caltech test dataset
方法 Reasonable MR (%) Partial MR (%) Heavy MR (%) 速度 (s/帧) PL-CNN[16] 12.40 16.68 — — Faster R-CNN$ + $ATT[32] 10.33 22.29 45.18 — MS-CNN[10] 9.95 19.24 59.94 0.40 RPN$ + $BF[13] 9.58 24.23 74.36 0.60 AdaptFasterRCNN[14] 9.18 26.55 57.58 — F-DNN[21] 8.65 15.41 55.13 0.30 PCN[20] 8.45 16.09 55.81 — F-DNN$ + $SS[21] 8.18 15.11 53.76 2.48 CSMFF 7.06 14.36 50.62 0.12 表 4 在CityPersons测试数据集上不同算法性能比较
Table 4 Performance comparison of our proposed CSMFF with state-of-the-art approaches on the CityPersons test dataset
表 5 在Caltech测试数据集上融合不同卷积层的性能
Table 5 Performance of fusing different convolutional layers on the Caltech test dataset
卷积层 MR (%) Conv2_2 Conv3_3 Conv4_3 Conv5_3 PFEM CSMFF √ √ √ 12.22 7.06 √ √ √ 32.42 18.15 √ √ √ √ 18.72 11.79 表 6 在Caltech数据集上测试每个组件的消融实验
Table 6 Ablation experiments for testing each component on the Caltech dataset
组件 选择 Faster R-CNN √ 多层特征融合 √ √ √ 语义分割分支 √ √ PSDM √ PFEM MR (%) 14.93 13.27 12.58 12.22 CSMFF MR (%) 12.11 9.53 8.68 7.06 -
[1] Danelljan M, Bhat G, Khan F S, Felsberg M. Atom: Accurate tracking by overlap maximization. In: Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, California, USA: IEEE, 2019. 4660−4669 [2] 李幼蛟, 卓力, 张菁, 李嘉锋, 张辉. 行人再识别技术综述[J]. 自动化学报, 2018, 44(9): 1554-1568Li You-Jiao, Zhuo Li, Zhang jing, Li Jia-Feng, Zhang Hui. Overview of Pedestrian Re-identification Technology. Acta Automatica Sinica, 2018, 44(9): 1554-1568 [3] Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? The KITTI vision benchmark suite. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, Rhode Island, USA: IEEE, 2012. 3354−3361 [4] 王梦来, 李想, 陈奇, 李澜博, 赵衍运. 基于CNN的监控视频事件检测[J]. 自动化学报, 2016, 42(6): 892-903Wang Meng-Lai, Li Xiang, Chen Qi, Li Yuan-Bo, Zhao Yan-Yun. CNN-based surveillance video event detection. Acta Automatica Sinica, 2016, 42(6): 892-903 [5] Kanazawa A, Black M J, Jacobs D W, Malik J. End-to-end recovery of human shape and pose. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, Utah, USA: IEEE, 2018. 7122−7131 [6] Zhang S, Benenson R, Omran M, Hosang J, Schiele B. How far are we from solving pedestrian detection? In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA: IEEE, 2016. 1259−1267 [7] Girshick R. Fast R-CNN. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 1440−1448 [8] Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. In: Proceedings of the 2015 Advances in Neural Information Processing Systems (NIPS). Montreal, Quebec, Canada: MIT Press, 2015. 91−99 [9] Yang F, Choi W, Lin Y. Exploit all the layers: Fast and accurate CNN object detector with scale dependent pooling and cascaded rejection classifiers. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA: IEEE, 2016. 2129−2137 [10] Cai Z, Fan Q, Feris R S, Vasconcelos N. A unified multi-scale deep convolutional neural network for fast object detection. In: Proceedings of the 2016 European Conference on Computer Vision. Scottsdale, AZ, USA: Springer, 2016. 354−370 [11] Gidaris S, Komodakis N. Object detection via a multi-region and semantic segmentation-aware CNN model. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 1134−1142 [12] Li J, Liang X, Shen S M, Xu T F, Feng J S, Yan S C. Scale-aware Fast R-CNN for pedestrian detection. IEEE Transactions on Multimedia, 2017, 20(4): 985-996 [13] Zhang L L, Lin L, Liang X D, He K M. Is Faster R-CNN doing well for pedestrian detection? In: Proceedings of the 2016 European Conference on Computer Vision. Amsterdam, Noord-Holland, The Netherlands: IEEE, 2016. 443−457 [14] Zhang S, Benenson R, Schiele B. CityPersons: A diverse dataset for pedestrian detection. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE, 2017. 3213−3221 [15] Dollár P, Wojek C, Schiele B, Perona P. Pedestrian detection: A benchmark. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, Florida, USA: IEEE, 2009. 304−311 [16] Yun I, Jung C, Wang X R, Hero A O, Kim J K. Part-level convolutional neural networks for pedestrian detection using saliency and boundary box alignment. IEEE Access, 2019, 7: 23027-23037 doi: 10.1109/ACCESS.2019.2899105 [17] Fidler S, Mottaghi R, Yuille A, Urtasun R. Bottom-up segmentation for top-down detection. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, Oregon, USA: IEEE, 2013. 3294−3301 [18] Hariharan B, Arbeláez P, Girshick R, Malik J. Simultaneous detection and segmentation. In: Proceedings of the 2014 European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 297−312 [19] Arbeláez P, Pont-Tuset J, Barron J T, Marques F, Malik J. Multiscale combinatorial grouping. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio, USA: IEEE, 2014. 328−335 [20] Wang S G, Cheng J, Liu H J, Tang M. PCN: Part and context information for pedestrian detection with CNNs. arXiv preprint arXiv: 1804.04483, 2018. [21] Du X, El-Khamy M, Lee J, Davis L. Fused DNN: A deep neural network fusion approach to fast and robust pedestrian detection. In: Proceedings of the 2017 IEEE Winter Conference on Applications of Computer Vision (WACV). Santa Rosa, California, USA: IEEE, 2017. 953−961 [22] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv: 1409. 1556, 2014. [23] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks. In: Proceedings of the 2011 International Conference on Artificial Intelligence and Statistics. Espoo, Finland, German: Springer, 2011. 315−323 [24] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA: IEEE, 2016. 770−778 [25] Hochreiter S, Younger A S, Conwell P R. Learning to learn using gradient descent. In: Proceedings of the 2001 International Conference on Artificial Neural Networks. Vienna, Austria, German: Springer, 2001. 87−94 [26] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv: 1502.03167, 2015. [27] Deng J, Dong W, Socher R, Li L J, Li K, Li F F. Imagenet: A large-scale hierarchical image database. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, Florida, USA: IEEE, 2009. 248−255 [28] Jia Y Q, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv: 1408.5093, 2014. [29] Zhang S, Benenson R, Schiele B. Filtered channel features for pedestrian detection. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, Massachusetts, USA: IEEE, 2015. 1751−1760 [30] Cordts M, Omran M, Ramos S, Rehfeld T, Enzweiler M, Benenson R. The cityscapes dataset for semantic urban scene understanding. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA: IEEE, 2016. 3213−3223 [31] Dollar P, Wojek C, Schiele B, Perona P. Pedestrian Detection: An evaluation of the state of the art. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 34(4): 743-761 [32] Zhang S, Yang J, Schiele B. Occluded pedestrian detection through guided attention in CNNs. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, Utah, USA: IEEE, 2018. 6995−7003 [33] Song T, Sun L Y, Xie D, Sun H M, Pu S L. Small-scale pedestrian detection based on topological line localization and temporal feature aggregation. In: Proceedings of the 2018 European Conference on Computer Vision. Munich, Germany: Springer, 2018. 536−551 [34] Wang X, Xiao T, Jiang Y, Shao S, Sun J, Shen C H. Repulsion loss: Detecting pedestrians in a crowd. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, Utah, USA: IEEE, 2018. 7774−7783 [35] Cao J L, Pang Y W, Han J G, Gao B L, Li X L. Taking a look at small-scale pedestrians and occluded pedestrians. IEEE Transactions on Image Processing, 2019, 29: 3143-3152. [36] Zhao Y, Yuan Z J, Chen B D. Training cascade compact cnn with region-iou for accurate pedestrian detection. IEEE Transactions on Intelligent Transportation Systems, 2019: 1-11. [37] Zhang S F, Wen L Y, Bian X, Lei Z, Li S Z. Occlusion-aware R-CNN: Detecting pedestrians in a crowd. In: Proceedings of the 2018 European Conference on Computer Vision. Munich, Germany: Springer, 2018. 637−653 期刊类型引用(9)
1. 张小艳,王苗. 改进的YOLOv8n轻量化景区行人检测方法研究. 计算机工程与应用. 2025(02): 84-96 . 百度学术
2. 江佳鸿,夏楠,李长吾,周思瑶,于鑫淼. 基于多尺度增量学习的单人体操动作中关键点检测方法. 电子学报. 2024(05): 1730-1742 . 百度学术
3. 黄玲娃,崔文成,邵虹. 基于多层特征融合的行人检测方法研究. 计算机科学. 2024(S2): 489-495 . 百度学术
4. 娄翔飞,吕文涛,叶冬,郭庆,鲁竞,陈影柔. 基于计算机视觉的行人检测方法研究进展. 浙江理工大学学报(自然科学). 2023(03): 318-330 . 百度学术
5. 张阳,张帅锋,刘伟铭. 融合残差网络和特征金字塔的小尺度行人检测方法. 交通信息与安全. 2023(03): 111-118+156 . 百度学术
6. 张凯兵,马东佟,孟雅蕾. 基于双源自适应知识蒸馏的轻量化图像分类方法. 西安工程大学学报. 2023(04): 82-91 . 百度学术
7. 王钲棋,邵洁. 基于先验显著性信息的道路场景目标检测. 计算机工程与应用. 2023(21): 251-257 . 百度学术
8. 刘青茹,李刚,赵创,顾广华,赵耀. 基于多重注意结构的图像密集描述生成方法研究. 自动化学报. 2022(10): 2537-2548 . 本站查看
9. 史凌凯,耿毅德,王宏伟,王洪利. 基于改进Mask R-CNN的刮板输送机铁质异物多目标检测. 工矿自动化. 2022(10): 55-61 . 百度学术
其他类型引用(23)
-