-
摘要: 基于深度学习的方法在去雾领域已经取得了很大进展, 但仍然存在去雾不彻底和颜色失真等问题. 针对这些问题, 本文提出一种基于内容特征和风格特征相融合的单幅图像去雾网络. 所提网络包括特征提取、特征融合和图像复原三个子网络, 其中特征提取网络包括内容特征提取模块和风格特征提取模块, 分别用于学习图像内容和图像风格以实现去雾的同时可较好地保持原始图像的色彩特征. 在特征融合子网络中, 引入注意力机制对内容特征提取模块输出的特征图进行通道加权实现对图像主要特征的学习, 并将加权后的内容特征图与风格特征图通过卷积操作相融合. 最后, 图像复原模块对融合后的特征图进行非线性映射得到去雾图像. 与已有方法相比, 所提网络对合成图像和真实图像均可取得理想的去雾结果, 同时可有效避免去雾后的颜色失真问题.Abstract: Although recent research has shown the potential of using deep learning to accomplish single image dehazing, existing methods still have some problems, such as poor visibility and color distortion. To overcome these shortcomings, we present a content feature and style feature fusion network for single image dehazing. The dehazing network consists of three parts: Feature extraction sub-network, feature fusion sub-network and image restoration sub-network. The feature extraction sub-network consists of a content feature extraction module and a style feature extraction module, which can learn image content and image style respectively to achieve pleasing dehazing results and maintain original color characteristics simultaneously. In the feature fusion sub-network, the channel-wise attention mechanism is adopted to weight the feature maps generated from the content feature extraction module in order to learn the most important features of the image, and then the weighted content feature map and style feature map are fused by convolution operation. Finally, a non-linear mapping is performed to recover the dehazed image. Compared with the existing approaches, the proposed network can obtain superior results on synthetic and real images, and can avoid the color distortion effectively.
-
无监督视频目标分割(Unsupervised video object segmentation, UVOS)目的是在没有任何人为干预的情况下从视频中自动分割出显著的对象. 这种自动分割主要目标的任务近年来受到了广泛的关注, 并在计算机视觉的许多领域产生了巨大的影响, 包括监控、机器人和自动驾驶等.
传统方法通常使用手工特征来解决这一问题, 例如运动边界[1]、稀疏表示[2]、显著性[3-4]和点轨迹[2, 5-6]. 尽管上述算法取得了一定的成功, 但在准确发现整个视频序列中最显著的对象方面还不够理想. 随着深度学习的兴起, 最近的几项研究试着将这一问题建模为零目标帧问题[7-8]. 这些方法通常从大规模的训练数据中学习一个强大的对象表示, 然后调整模型来测试视频, 而不需要任何注释.
尽管上述方法取得了突破性的进展, 但是仍然存在问题. 上述方法使用重量级网络提取更好的特征表示, 例如基于ResNet101网络的DeepLab v3网络[9]同时使用复杂的机制, 捕获显著物体. 这些导致了较大的模型参数量, 较高的模型计算量, 较慢的模型训练与推理速度, 限制了算法在实际场合中的应用.
如何高效捕获显著物体是网络轻量化的关键. 在最近的研究中, 使用互注意力机制在不同视频帧之间捕获相似物体[10], 取得了较好效果, 但不能区分背景中与显著目标相似的物体, 且计算量较大. 基于人对运动物体的敏感性, 可以利用运动信息捕获显著物体. 同时由于视频中物体缓慢移动的先验信息, 基于局部匹配的运动信息提取方法较为高效, 因此本文使用光流估计网络提取运动信息.
同时, 提取RGB图像中物体的外观特征来补充运动信息缺少的具体细节, 提升最终分割效果. 因为RGB图像与光流估计存在像素点对应的关系, 光流估计中的运动信息又包含了显著物体的大致位置与轮廓信息, 所以可以在运动信息中使用局部注意力机制得到卷积权重, 引导外观特征学习语义, 减低RGB图像支路的特征提取难度. 这种运动信息引导外观信息学习的方法, 使得本文算法在使用轻量级特征提取器的同时, 可以获得良好的特征提取质量, 降低了模型参数量与模型计算量. 最后, 将提取的多个阶段特征送入多尺度渐进融合模块, 经过卷积与上采样的组合, 不断增强高分辨率特征的语义信息, 得到更加准确的分割结果.
本文主要贡献如下:
1)提出一种轻量级无监督视频目标分割算法, 大幅缩小模型参数量与模型计算量, 显著提升了无监督视频目标分割算法的速度.
2)基于运动先验信息, 设计出一种基于局部注意力的运动引导模块, 通过局部注意力提取运动信息中的语义信息, 并以卷积权重的形式引导外观特征学习语义, 最终提升分割性能.
3)与当前最先进的方法相比, 本文方法在多个标准数据集上取得了具有竞争力的实验结果, 表明了本文算法的有效性, 取得速度与精度的平衡.
1. 相关工作
1.1 无监督视频目标分割
早期的无监督视频目标分割模型通常分析点轨迹[2, 5-6]、物体建议[11]、运动边界[1]或显著性信息[3-4]来推断目标, 但是受制于数据集、算力等多方面的限制, 效果不理想. 近年来, 得益于大型数据集的建立[12-13]与全卷积分割网络发展, 多种方法提出用零目标帧解决方案来解决这一问题.
一种分割显著物体的方法是通过视频显著物体检测[14]. 该方法对预先训练好的语义分割网络进行微调, 提取空间显著性特征, 然后训练卷积长短期记忆(Convolution long short-term memory, Conv-LSTM)捕捉时序信息. 随着注意力机制的出现, 新研究使用带有互注意力机制的孪生网络[10], 在视频不同帧之间获取空间与时序信息进行推理, 但是不能很好区分背景中与显著物体相似的物体. 双流网络也是一种流行的选择[15-16], 融合运动与外观信息一起进行对象推理. 例如, 运动注意转换网络(Motion-attentive transition network, MATNet)[17]中, 使用互注意力机制在双流网络各个阶段之间融合运动与外观特征获取显著性特征, 取得了较好结果. 然而, 这些研究使用的互注意力机制带来巨大的计算量问题, 这限制了实际场合中的应用.
1.2 互注意力机制
神经网络中的注意机制受到人类感知的启发, 在深层神经网络中得到了广泛研究. 通过端到端的训练, 注意机制允许网络有选择地注意输入的子集. 例如, 利用多上下文注意进行人体姿势估计[18], 利用空间注意和通道注意两种方法, 来动态选择一个图像部分作为图像描述[19]. 最近, 视觉和语言任务中的共同注意机制得到了研究, 例如视觉问答[20]和视觉对话[21]. 在这些工作中, 共同注意机制被用来挖掘不同模式之间的潜在相关性. 例如, 在之前的视觉问答研究[20]中创建了一个模型, 该模型联合执行问题引导的视觉注意和图像引导的问题注意. 这样, 学习的模型可以选择性地聚焦于图像区域和文档片段. 本文的注意力模型是受这些文献启发, 它被用来在具有先验信息的特征之间挖掘信息, 以一个更优雅的网络架构来捕捉运动信息, 引导外观信息学习显著性特征.
2. 本文方法
如图1所示, 本文提出一种端到端网络, 主要由双流网络、运动引导模块、多尺度渐进融合模块三个部分组成.
2.1 双流网络
本文构建一个双流网络来提取运动特征与外观特征, 这在许多相关的视频任务中被证明是有效的. 不同于以往研究, 本文使用轻量网络替代基于ResNet101的DeepLab v3网络[9], 并在轻量网络的不同阶段, 插入运动引导模块来增强外观特征的语义. 考虑到对推理速度与分割效果的平衡, 本文使用MobileNet v2网络[22]作为双流网络的每条支路的特征提取器. 对于双流网络, 给定一张图片
${{\boldsymbol{I }}_a} \in {{\bf R}^{3 \times H \times W}}$ 与对应的光流估计${{\boldsymbol{I }}_m} \in {{\bf R}^{3 \times H \times W}}$ , 双流网络在第$i$ 阶段提取外观特征${{\boldsymbol{V }}_{a,i}} \in {{\bf R}^{C \times H \times W}}$ 与运动特征${{\boldsymbol{V }}_{m,i}} \in {{\bf R}^{C \times H \times W}}$ , 送入第$i$ 个阶段的运动引导模块增强外观特征:$$ {{\boldsymbol{U }}_{a,i}} = {F_{MG}}({{\boldsymbol{V }}_{a,i}},{{\boldsymbol{V }}_{m,i}}) $$ (1) 式中,
${F_{MG}}( \cdot )$ 表示运动引导模块,${{\boldsymbol{U }}_{a,i}} \in {{\bf R}^{C \times H \times W}}$ 表示增强后的第$i$ 个阶段外观特征. 特别地, 在双流网络的第1阶段不设置运动引导模块, 以保留浅层特征的细节信息. 对于网络第$i$ 阶段的增强外观特征${{\boldsymbol{U }}_{a,i}}$ 与运动特征${{\boldsymbol{V }}_{m,i}}$ , 在通道维度拼接得到${{\boldsymbol{U }}_i} = Concat({{\boldsymbol{U }}_{a,i}},{{\boldsymbol{U }}_{m,i}}) \in {{\bf R}^{2C \times H \times W}}$ 后, 送入多尺度渐进融合模块, 得到最终分割图.2.2 运动引导模块
互注意力机制被广泛应用于提取不同模态特征中的关联信息, 在协同注意力孪生网络(Co-attention siamese networks, COSNet)[10]中使用互注意力机制, 提取同一视频中多帧的特征之间的关联信息, 在MATNet[17]中使用互注意力机制, 将外观特征转化为运动注意力表示. 互注意力机制的大量运用在取得良好结果的同时, 有着计算量巨大的问题, 因此改进互注意机制可以带来可观的效率提升.
朴素的互注意力机制如图2(a)所示. 特征
${{\boldsymbol{V }}_a} \in {{\bf R}^{C \times H \times W}}$ 与特征${{\boldsymbol{V }}_b} \in {{\bf R}^{C \times H \times W}}$ 送入互注意力模块, 通过$1 \times 1$ 卷积压缩通道到$C/d$ , 后调整维度得到${\overline {\boldsymbol{V }} _a} \in {{\bf R}^{C \times HW}}$ 与${\overline {\boldsymbol{V }} _b} \in {{\bf R}^{C \times HW}}$ , 计算${\overline {\boldsymbol{V }} _a}$ 与${\overline {\boldsymbol{V }} _b}$ 中特征点相似度, 得到相似度矩阵${\boldsymbol{ S}} \in {{\bf R}^{HW \times HW}}$ , 矩阵${\boldsymbol{ S}}$ 与其转置矩阵${{\boldsymbol{ S}}^{\rm{T}}}$ 分别与${{\boldsymbol{V }}_a}$ 与${{\boldsymbol{V }}_b}$ 做矩阵乘法, 恢复空间维度后得到增强后的特征${{\boldsymbol{U }}_a} \in {{\bf R}^{C \times H \times W}}$ 与特征${{\boldsymbol{U }}_b} \in {{\bf R}^{C \times H \times W}}$ .本文从加权求和的角度, 分析互注意力机制的优势. 在互注意力中, 特征
${{\boldsymbol{U }}_b}$ 中的每个特征点${{\boldsymbol{I }}_b} \in {{\bf R}^{C \times 1 \times 1}}$ , 由一组权重${\boldsymbol{W }} \in {{\bf R}^{1 \times HW}}$ 对特征${\overline {\boldsymbol{V }} _a}$ 中的每一个特征点加权求和得到, 这组权重${\boldsymbol{ W}}$ 由${\overline {\boldsymbol{V }} _b}$ 中对应位置的特征点${{\boldsymbol{I }}_b}$ 与${\overline {\boldsymbol{V }} _a}$ 中所有特征点的相似度矩阵归一化得到. 这种方式类似多层感知机(Multi-layer perceptron, MLP), 全局的计算获得全局的感受野. 不同的是, 在MLP中的权重是可学习参数, 互注意力中以相似度方式定义权重, 不需要进行学习, 降低了过拟合风险.互注意力机制获得了全局的感受野, 同时避免了像MLP一样增加可学习参数, 但是存在计算量较大的问题. 使用局部替代全局将大幅减少计算量, 在合理利用特征先验信息的情况下, 不会导致模型性能下降. 类似卷积对MLP的改进, 本文使用滑窗的方式得到局部注意力.
具体地, 计算运动特征
${{\boldsymbol{V }}_m}$ 中的每一个特征点${{\boldsymbol{I }}_m}$ 与其周围$K$ 窗口内的特征点之间的相似度, 归一化得到相似度矩阵${\boldsymbol{W }} \in {{\bf R}^{1 \times K \times K}}$ . 外观特征${{\boldsymbol{V }}_a}$ 中对应位置的特征点${{\boldsymbol{I }}_a}$ , 使用相似度矩阵${\boldsymbol{W }}$ 对其周围$K$ 窗口内的特征点做加权求和, 得到${{\boldsymbol{U }}_a}$ 的中特征点${\dot {\boldsymbol{I }}_a}.$ 通过这种方式, 运动特征通过局部注意力提取语义信息获得加权权重, 并通过传递权重给外观特征引导加权求和的方式引导学习高级语义.通过现有框架实现的运动引导模块并行计算如图2(b)所示. 外观特征
${{\boldsymbol{V }}_a} \in {{\bf R}^{C \times H \times W}}$ 按im2col方式展开并调整维度得到${\overline {\boldsymbol{V }} _{a\_unfold}} \in {{\bf R}^{K \times K \times C \times H \times W}}$ . 运动特征${{\boldsymbol{V }}_m} \in {{\bf R}^{C \times H \times W}}$ 经过一层$1 \times 1$ 卷积压缩通道得到${\overline {\boldsymbol{V }} _m} \;\in \;{{\bf R}^{(C/d) \;\times\; H \;\times\;W}}$ , 按im2col方式展开${\overline {\boldsymbol{V }} _m}$ 并重新排列维度得到${\overline {\boldsymbol{V }} _{m\_unfold}} \in {{\bf R}^{K \times K \times (C/d) \times H \times W}}$ , 复制${\overline {\boldsymbol{V }} _m}$ 特征点${{K}} \times {{K}}$ 次并重新排列维度得到${\overline {\boldsymbol{V }} _{m\_repeat}} \in {{\bf R}^{K \times K \times (C/d) \times H \times W}}$ . 特征${\overline {\boldsymbol{V }} _{m\_unfold}}$ 与特征${\overline {\boldsymbol{V }} _{m\_repeat}}$ 在通道维度上做相似度, 得到相似度矩阵${\boldsymbol{ S}} \in {{\bf R}^{(K \times K) \times H \times W}}$ . 特征${\overline {\boldsymbol{V }} _{a\_unfold}}$ 与相似度矩阵${\boldsymbol{S }}$ 做矩阵乘, 得到特征${{\boldsymbol{U }}_a} \in {{\bf R}^{C \times H \times W}}.$ 本文的运动引导模块类似卷积, 不同点在于, 通过相似度方式定义的滑窗卷积权重对于特征图中的每一个特征点是动态的, 且不需要进行学习.
对比互注意力模块, 运动引导模块大幅降低了计算量, 不同输入尺寸下计算量对比如表1所示. 同时, 运动引导模块可以通过限制最大关联距离(滑窗的大小
$K$ )来平衡模型对运动信息的提取能力与对背景噪声的抑制能力. 具体地, 过小的$K$ 无法获得足够的运动信息; 过大的$K$ 增加计算量, 并可能提取到与前景物体相似的背景物体的运动信息. 特别地, 当$K$ 为1时, 运动引导模块退化为运动特征${{\boldsymbol{V }}_m}$ 与外观特征.表 1 不同模块每秒浮点运算数对比Table 1 Comparison of floating-point operations per second of different modules输入尺寸 (像素) 互注意模块 (MB) 运动引导模块 (MB) $64 \times 64 \times 16$ 10.0 2.3 $64 \times 32 \times 32$ 153.1 9.0 ${{\boldsymbol{V }}_a}$ 进行逐元素点乘, 不具备在运动特征${{\boldsymbol{V }}_m}$ 中获得局部注意力的能力. 因此, 选取合适的$K$ 对于运动引导模块十分重要. 除了直接调整$K$ 的取值, 还可以调整模块的堆叠层数来模拟较大$K$ 值模块的效果, 这进一步降低了计算量, 提升了最终效果.$K$ 取值和模块堆叠次数对模型性能的影响, 将在第3.6节进行实验分析.2.3 多尺度渐进融合模块
双流网络不同阶段提取的特征拥有不同的分辨率, 包含不同层次的语义信息, 合理使用这些特征显得尤为重要. 之前的研究采取UNet[23]方式的上采样融合策略, 同时使用空洞空间卷积池化金字塔增大各个阶段的感受野, 但是忽略了不同阶段特征在语义层面的融合差别.
如图3所示, 分割结果图包含的语义信息可以看作高级语义的子集, 低分辨率的深层语义特征融合高分辨率的浅层语义特征, 得到高分辨率的高级语义特征. 但是, 随着融合的不断进行, 待融合的低分辨率特征与高分辨率特征之间的语义鸿沟将会加大, 这不利于融合权重的学习, 降低了分割性能.
因此, 本文提出多尺度渐进融合模块, 采取不断将高级语义融合进高分辨特征的策略. 双流网络提取的多阶段特征分别送入处理不同分辨率特征的多阶段支路中, 并在每个阶段之间会由低分辨率特征向高分辨率特征进行融合.
具体地, 对于第
$j - 1$ 阶段第$i$ 条支路特征${{\boldsymbol{U }}_{j - 1,i}} \in {{\bf R}^{2C \times (H/2) \times (W/2)}}$ , 先进行2倍上采样, 后与第$j - 1$ 阶段第$i - 1$ 条支路特征${{\boldsymbol{U }}_{j - 1,i - 1}} \in {{\bf R}^{C \times H \times W}}$ 在通道维度进行拼接, 再送入两层残差结构调整通道数量, 并进行融合语义信息, 最终得到第$j$ 阶段第$i - 1$ 个特征${{\boldsymbol{U }}_{j,i - 1}} \in {{\bf R}^{C \times H \times W}}$ .$$ {{\boldsymbol{U }}_{j,i - 1}} = {F_{conv}}(Concat({{\boldsymbol{U }}_{j - 1,i - 1}},Up({{\boldsymbol{U }}_{j - 1,i}}))) $$ (2) $$ {F_{conv}}( * ) = {F_{res}}({F_{res}}( * )) $$ (3) 式中,
${*}$ 代表输入特征. 通过这种方式, 降低融合特征语义之间差距, 提升了最终分割结果.3. 实验设置与结果分析
3.1 训练细节
本文采用在ImageNet数据集上预训练的Mobile-Net v2网络[22]作为双流网络特征提取器, 使用二值交叉熵损失函数作为训练的损失函数. 训练数据分为Youtube-VOS数据集[13]和DAVIS-16数据集[12]两部分. 因为Youtube-VOS数据集实际存在类别标签, 不利于类别无关的视频分割任务的训练, 且分割标注的准确度低于DAVIS-16数据集, 所以本文选择在Youtube-VOS数据集上预训练模型, 在DAVIS-16数据集上微调模型进行测试. 同时为了保证公平, 在Youtube-VOS数据集上采用间隔抽帧的方式, 得到9000张训练图像, 加上DAVIS-16数据集的2000张训练图像, 共计11000张训练图像, 与其他算法训练集规模持平. 本文使用在研究中常用的PWCNet网络预先处理数据集, 得到光流估计图像.
本文使用常用的数据增广策略, 对于每一张训练图片, 随机翻转后采取
$ - {10^\circ }$ ~${10^\circ }$ 的随机角度旋转图片, 后裁剪并缩放到384$\times$ 672像素尺寸. 网络预训练阶段微调阶段均使用随机梯度下降优化器, 特征提取器与运动引导模块使用$1\times{10^{-4}}$ 的学习率, 多尺度渐进融合模块使用1$\times 10^{-3}$ 的学习率, 学习率衰减率和权重衰减率分别为0.9和5$\times 10^{-4}$ , 批量大小均为10 (张/批). 预训练迭代25轮, 微调迭代10轮. 使用PyTorch 1.6.0框架搭建网络, 并在1张GeForce GTX 2080 Ti GPU上训练并测试模型.3.2 数据集
本文在DAVIS-16数据集[12]、FBMS数据集[2]和ViSal数据集[24]上测试模型性能.
1) DAVIS-16数据集由50个视频组成, 30个视频用于训练, 20个视频用于测试.
2) FBMS数据集由59个视频组成, 29个用于训练, 30个用于测试. 采用每20帧标注一帧的稀疏标注策略.
3) ViSal数据集由17个测试视频组成, 共193帧标注图片.
3.3 评价指标
对于无监督视频分割任务, 本文采用DAVIS-16的标准评价指标, 区域相似度
$J$ 和轮廓精度$F$ . 其中,$J$ 为分割结果和标注真值掩模的交并比:$$ J{\text{ = }}\frac{{|{\boldsymbol{M }} \cap {\boldsymbol{GT}}|}}{{|{\boldsymbol{M }} \cup {\boldsymbol{GT}}|}} $$ (4) 式中,
${\boldsymbol{M }}$ 表示预测的分割结果,${\boldsymbol{GT}}$ 表示分割真值掩模.$F$ 将掩模视为系列闭合轮廓的集合, 计算基于轮廓的$F$ 度量:$$ F{\text{ = }}\frac{{{\text{2}}P\times R}}{{P + R}} $$ (5) 式中,
$P$ 为准确率,$R$ 为召回率.另外, 本文采用综合指标
$J\& F$ , 表示两者的均值:$$ J\& F{\text{ = }}\frac{{J + F}}{2} $$ (6) 本文使用平均绝对误差(Mean absolute error, MAE)和
$F_\beta $ 评价模型, 对视频显著性进行检测.MAE描述了二值显著性图与真图的像素级的直接比较:
$$ {\rm{MAE}}{\text{ = }}\frac{1}{{W \times H}}\sum\limits_{i = 1}^W {\sum\limits_{j = 1}^H {\left\| {{{\boldsymbol{ S}}_{i,j}} - {{\boldsymbol{ G}}_{i,j}}} \right\|} } $$ (7) 式中,
${\boldsymbol{S }}$ 表示二值显著性图,${\boldsymbol{G }}$ 表示真图,$W$ 和$H$ 对应图像的宽和高.$F_\beta$ 是综合准确率和召回率的评价指标, 可以较为全面地反映算法的性能:$$ {F_\beta }{\text{ = }}\frac{{(1 + {\beta ^2}){{P}} \times {{R}}}}{{{\beta ^2}{P} + {{R}}}} $$ (8) 式中, 加权调和参数
${\beta ^2}$ 常被设置为0.3.3.4 结果对比
表2对比了本文算法与其他几种先进算法在DAVIS-16数据集[12]和FBMS数据集[2]上的表现. 在DAVIS-16数据集中, 本文采用
$J$ 、$F$ 和$J\& F$ 评价指标作为参考. 在FBMS数据集上, 本文采用$J$ 指标作为参考. 本文算法没有采用除去翻转之外的任何后处理方法, 例如COSNet[10]、MATNet[17]中, 使用的条件随机场后处理方法. 本文算法在DAVIS-16数据集上, 以$J\& F = $ 83.6% 位于第1. 在FBMS数据集上, 以$J = $ 75.9% 位于第2, 仅次于MATNet, 相差0.2%. 本文算法在DAVIS-16数据集上取得较好结果, 主要归功于两个方面: 1)运动引导模块的局部注意力抑制了大量背景噪声; 2)多尺度渐进融合模块配合相对较大的输入分辨率, 提升分割结果. 值得注意的是, 本文算法在FBMS数据集的指标明显低于在DAVIS-16数据集上的指标, 是由于光流估计网络PWCNet在FBMS数据集上效果不佳, 无法获得较好的运动信息引导外观特征.表 2 不同方法在DAVIS-16 和FBMS数据集的评估结果 (%)Table 2 Evaluation results of different methods on DAVIS-16 and FBMS datasets (%)视频显著性检测任务的目的, 在于通过联合空间和时间信息实现视频序列中与运动相关的显著性目标的连续提取. 由于无监督视频目标分割与视频显著性检测的任务相似性, 本文同样测试模型DAVIS-16[12]、FBMS[2]、ViSal[24]三个数据集上的视频显著性检测指标, 使用MAE和
$F_\beta $ 指标作为依据, 结果如表3所示. 本文算法在DAVIS-16数据集上获得了最好的指标, 同时在FBMS数据和ViSal数据集获得具有竞争力的指标, 表明了本文方法的有效性.表 3 不同方法在DAVIS-16、FBMS和ViSal数据集的评估结果 (%)Table 3 Evaluation results of different methods on DAVIS-16、FBMS and ViSal datasets (%)由于本文算法选择了轻量级网络与局部注意力模块, 除去在标准数据集上的良好表现外, 同样在模型参数量与模型推理速度上具有优势. 表4对比了本文算法与两种最先进方法的模型参数量、模型计算量与推理时延. 算法测试不使用后处理, 同时为了排除不同数据加载方式对模型推理速度的干扰, 本文仅测试输入对应分辨率且批量为1的随机矩阵时模型的推理速度. 首先模型推理10轮预热, 然后推理60轮统计用时, 分别去掉用时最高与最低的20轮, 统计剩余20轮的平均时间得到推理时延. 通过表3的对比实验可以看出, 本文算法有效降低了模型参数与模型计算量, 这在实际应用中具有更多的优势. 同时, 本文算法在更高分辨率输入图像的情况下, 推理时延只有15 ms, 对比同样使用运动特征的MATNet[17]方法, 推理速度提升5.2倍. 考虑到本文算法内存消耗较少, 因此在相同设备上具有更大的并发量.
为了验证本文算法的高效性, 本文测试对比算法在GeForce GTX2080 Ti上的运行性能, 结果如表5所示.
表 5 不同方法在GTX2080 Ti上的性能表现Table 5 Performance of different methods on GTX2080 Ti方法 并发量 每秒帧数 时延 (ms) MATNet[17] 18 16 62.40 本文算法 130 161 6.21 得益于较低的参数量和计算量, 在充分利用11 GB显示器存储情况下, 本文算法具有更高的并发能力, 可以同时处理130帧图片, 对比MATNet提升7.2倍. 同时, 本文算法每秒帧数达到161帧/秒, 平均推理时延只有6.21 ms. 表明了本文算法的高效性.
3.5 分割结果对比
图4对比展示了本文算法与其他方法的分割结果. 由图4可以看出, 本文算法可以较好抑制背景噪声.
3.6 消融实验
表6展示了本文算法在DAVIS-16数据集[12]上的消融实验结果, FG代表运动引导模块, U代表多尺度渐进融合模块. 使用
$J$ 指标与$F$ 指标作为主要依据. 基线模型基于MobileNet v2网络[22]的双流网络提取运动与外观特征, 并在网络的每个阶段通过运动与外观特征矩阵点乘融合语义, 最终通过UNet[23]方式上采样得到分割结果. 基线模型在DAVIS-16数据集上, 仅得到了$J = $ 75.8%和$F = $ 73.5%的结果. 通过加入多尺度渐进融合模块改善了边缘$F$ 指标, 由73.5%上升至75.6%. 通过加入运动引导模块大幅改善了分割性能. 同时, 本文通过在双流网络中插入不同参数的运动引导模块, 探索运动引导模块的最佳效果. 如表7所示, 通过加入$K$ 为3的运动引导模块, 模型取得了大幅度的性能提升, 对比加入多尺度渐进融合模块的基线模型,$J$ 指标提升了6.7%,$F$ 指标提升了6.8%.表 6 运动引导模块与多尺度渐进融合模块的消融实验(%)Table 6 Ablation experiment on motion guidance module and multi-scale progressivefusion module (%)指标 本文算法 $无\; {\rm{FG} }$ ${\rm{FG}}$ $J$ 83.7 75.8 76.1 $F$ 83.4 73.5 75.6 表 7 不同核K大小与堆叠次数对比Table 7 Comparison of different Kernel sizes and cascading timesK 堆叠层数 $J$ (%) $F$ (%) 3 1 82.8 82.4 3 2 83.4 82.7 3 3 83.7 83.4 3 4 83.5 83.2 5 1 83.2 82.6 7 1 83.4 82.7 9 1 83.1 82.4 通过实验可以看出, 随着
$K$ 值的扩大, 模型性能出现先升后降的现象. 这主要是随着$K$ 的增加, 局部注意力获得的运动信息变多, 受到背景噪声的影响也在变大. 最终在$K$ 为7时, 取得较好平衡.类似卷积中使用多层
$3 \times 3$ 卷积模拟更大卷积的方式, 本文也探索了堆叠运动引导模块带来的影响. 通过堆叠两层$K$ 为3的模块, 模拟了$K$ 为5的模块效果, 降低计算量的同时, 获得了更好的结果表现. 本文将此归结于,$K$ 为5的模块实际只进行了1次语义提取, 替换为相似的$K$ 为3的模块可以进行2次提取语义信息, 最终性能超过$K$ 较大时的模型. 同时, 堆叠运动引导模块同样出现了随着$K$ 的增大, 性能先升后降的现象. 由表7可以看出, 本文算法选择堆叠3层$K$ 为3的运动引导模块的模型, 作为本文的最终模型.3.7 分割结果展示
图5展示了本文算法的分割结果. 可见本文算法在多种挑战场景下性能出色. 在第1行中, 本文算法可以较好区分显著前景与背景中相似物体; 在第2行和第3行中, 本文算法可以从嘈杂背景中准确分割显著物体; 在第4行和第5行中, 本文算法可以较好处理物体遮挡情况; 在第6行中, 本文可以较好处理多个显著前景目标. 可视化结果表明了本文算法的有效性.
4. 结束语
本文提出了一种基于运动引导的无监督视频目标分割算法. 首先, 通过双流网络提取运动与外观特征; 然后, 经过运动引导模块引导外观特征学习显著的特征, 从而避免重量级特征提取器与互注意力机制带来的巨大计算量; 最后, 多尺度渐进融合模块不断将高级语义融入到浅层特征中, 得到最终预测的分割结果. 在多个标准评测数据集上的实验结果, 都充分验证了本文算法的优越性.
-
图 5 合成有雾图的实验结果(MSD) ((a) 有雾图; (b) DCP; (c) DehazeNet; (d) MSCNN; (e) AOD-Net; (f) DCPDN; (g) EPDN; (h) FFA-Net; (i) Y-Net; (j)本文方法; (k) 清晰图像)
Fig. 5 Experimental results of the synthetic hazy images (MSD) ((a) Hazy images; (b) DCP; (c) DehazeNet; (d) MSCNN; (e) AOD-Net; (f) DCPDN; (g) EPDN; (h) FFA-Net; (i) Y-Net; (j) Proposed; (k) Clear images)
图 7 真实场景有雾图的实验结果 ((a) 有雾图; (b) DCP; (c) DehazeNet; (d) MSCNN; (e) AOD-Net; (f) DCPDN; (g) EPDN; (h) FFA-Net; (i) Y-Net; (j)本文方法)
Fig. 7 Experimental results of real outdoor hazy images ((a) Hazy images; (b) DCP; (c) DehazeNet; (d) MSCNN; (e) AOD-Net; (f) DCPDN; (g) EPDN; (h) FFA-Net; (i) Y-Net; (j) Proposed)
图 4 合成有雾图的实验结果(SOTS) ((a) 有雾图; (b) DCP; (c) DehazeNet; (d) MSCNN; (e) AOD-Net; (f) DCPDN; (g) EPDN; (h) FFA-Net; (i) Y-Net; (j)本文方法; (k) 清晰图像)
Fig. 4 Experimental results of the synthetic hazy images (SOTS) ((a) Hazy images; (b) DCP; (c) DehazeNet; (d) MSCNN; (e) AOD-Net; (f) DCPDN; (g) EPDN; (h) FFA-Net; (i) Y-Net; (j) Proposed; (k) Clear images)
图 6 去雾结果图及其对应的特征图 ((a) 有雾图; (b) 去雾图像; (c) 内容特征图(RB1_index 59); (d)内容特征图(RB7_index 13); (e) 风格特征图(RDB3_index 10); (f) 融合后的特征图(index 53))
Fig. 6 Dehazed results and corresponding feature maps ((a) Hazy image; (b) Dehazed image; (c) Content feature map (RB1_index 59); (d) Content feature map (RB7_index 13); (e) Style feature map (RDB3_index 10); (f) Fused feature map (index 53))
表 1 在合成数据集上PSNR和SSIM结果
Table 1 Comparison of PSNR and SSIM tested on synthetic hazy images
方法 室内图像 室外图像 PSNR (dB) SSIM PSNR (dB) SSIM DCP[5] 16.62 0.8179 19.13 0.8148 DehazeNet[9] 21.14 0.8472 22.46 0.8514 MSCNN[10] 17.57 0.8102 22.06 0.9078 AOD-Net[12] 19.06 0.8504 20.29 0.8765 DCPDN[11] 15.85 0.8175 19.93 0.8449 EPDN[15] 25.06 0.9232 22.57 0.8630 FFA-Net[16] 36.39 0.9886 33.57 0.9840 FS-Net[17] 26.61 0.9561 24.07 0.8741 Y-Net[18] 19.04 0.8465 25.02 0.9012 本文方法 31.10 0.9776 30.74 0.9774 表 2 在SOTS室内数据集上PSNR和SSIM结果比较
Table 2 Comparison of PSNR and SSIM tested on SOTS (indoor dataset)
实验项目 PSNR (dB) SSIM CF 28.57 0.9703 WCF 29.76 0.9730 WC-SF 29.85 0.9774 SF-WCF 31.10 0.9776 -
[1] 吴迪, 朱青松. 图像去雾的最新研究进展. 自动化学报, 2015, 41(2): 221-239.Wu Di, Zhu Qing-Song. The latest research progress of image dehazing. Acta Automatica Sinica, 2015, 41(2): 221-239. [2] Xu H T, Zhai G T, Wu X L, Yang X K. Generalized equalization model for image enhancement. IEEE Transactions on Multimedia, 2014, 16(1): 68-82. doi: 10.1109/TMM.2013.2283453 [3] Jiang B, Woodell G A, Jobson D J. Novel multi-scale retinex with color restoration on graphics processing unit. Journal of Real-Time Image Processing, 2015, 10(2): 239-253. doi: 10.1007/s11554-014-0399-9 [4] Narasimhan S G, Nayar S K. Vision and the atmosphere. International Journal of Computer Vision, 2002, 48(3): 233-254. doi: 10.1023/A:1016328200723 [5] He K M, Sun J, Tang X O. Single image haze removal using dark channel prior. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33(12): 2341-2353. [6] Berman D, Treibitz T, Avidan S. Non-local image dehazing. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 1674−1682 [7] Zhu Q S, Mai J M, Shao L. A fast single image haze removal algorithm using color attenuation prior. IEEE Transactions on Image Processing, 2015, 24(11): 3522-3533. doi: 10.1109/TIP.2015.2446191 [8] 杨燕, 陈高科, 周杰. 基于高斯权重衰减的迭代优化去雾算法. 自动化学报, 2019, 45(4): 819-828.Yang Yan, Chen Gao-Ke, Zhou Jie. Iterative optimization defogging algorithm using gaussian weight decay. Acta Automatica Sinica, 2019, 45(4): 819-828. [9] Cai B L, Xu X M, Jia K, Qing C M, Tao D C. DehazeNet: an end-to-end system for single image haze removal. IEEE Transactions on Image Processing, 2016, 25(11): 5187-5198. doi: 10.1109/TIP.2016.2598681 [10] Ren W Q, Liu S, Zhang H, Pan J S, Cao X C, Yang M H. Single image dehazing via multi-scale convolutional neural networks. In: Proceedings of the European Conference on Computer Vision. Amsterdam, Netherlands: Springer, 2016. 154−169 [11] Zhang H, Patel V M. Densely connected pyramid dehazing network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018. 3194−3203 [12] Li B Y, Peng X L, Wang Z Y, Xu J Z, Feng D. AOD-Net: All-in-one dehazing network. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 4780−4788 [13] Ren W Q, Ma L, Zhang J W, Pan J S, Cao X C, Liu W, et al. Gated fusion network for single image dehazing. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018. 3253−3261 [14] Li R D, Pan J S, Li Z C, Tang J H. Single image dehazing via conditional generative adversarial network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018. 8202−8211 [15] Qu Y Y, Chen Y Z, Huang J Y, Xie Y. Enhanced pix2pix dehazing network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019. 8160−8168 [16] Qin X, Wang Z L, Bai Y C, Xie X D, Jia H Z. FFA-Net: Feature fusion attention network for single image dehazing. In: Proceedings of the Association for the Advance of Artificial Intelligence. Hilton Midtown, New York, USA: AAAI Press, 2020. 11908−11915 [17] Guo F, Zhao X, Tang J, Peng H, Liu L J, Zou B J, et al. Single image dehazing based on fusion strategy. Neurocomputing, 2020, 378: 9-23. doi: 10.1016/j.neucom.2019.09.094 [18] Yang H H, Yang C H H, Tsai Y C J. Y-net: Multi-scale feature aggregation network with wavelet structure similarity loss function for single image dehazing. In: Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. Barcelona, Spain: IEEE, 2020. 2628−2632 [19] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 770−778 [20] Zhang Y L, Tian Y P, Kong Y, Zhong B N, Fu Y. Residual dense network for image super-resolution. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018. 2472−2481 [21] Chen L, Zhang H W, Xiao J, Nie L Q, Shao J, Liu W, et al. Sca-cnn: Spatial and channel-wise attention in convolutional networks for image captioning. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. 6298−6306 [22] Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, et al. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115(3): 211-252. doi: 10.1007/s11263-015-0816-y [23] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, CA, USA: ICLR, 2015. 1−14 [24] Li B Y, Ren W Q, Fu D P, Tao D C, Feng D, Zeng W J, et al. Benchmarking single image dehazing and beyond. IEEE Transactions on Image Processing, 2019, 28(1): 492-505. doi: 10.1109/TIP.2018.2867951 [25] Scharstein D, Pal C. Learning conditional random fields for stereo. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN, USA: IEEE, 2007. 18−23 期刊类型引用(1)
1. 兰猛,张乐飞,杜博,张良培. 基于时空层级查询的指代视频目标分割. 中国科学:信息科学. 2024(03): 674-691 . 百度学术
其他类型引用(7)
-