-
摘要: 针对YOLOv3算法在检测公路车道线时存在准确率低和漏检概率高的问题, 提出一种改进YOLOv3网络结构的公路车道线检测方法.该方法首先将图像划分为多个网格, 利用K-means++聚类算法, 根据公路车道线宽高固有特点, 确定目标先验框数量和对应宽高值; 其次根据聚类结果优化网络Anchor参数, 使训练网络在车道线检测方面具有一定的针对性; 最后将经过Darknet-53网络提取的特征进行拼接, 改进YOLOv3算法卷积层结构, 使用GPU进行多尺度训练得到最优的权重模型, 从而对图像中的车道线目标进行检测,并选取置信度最高的边界框进行标记.使用Caltech Lanes数据库中的图像信息进行对比试验, 实验结果表明, 改进的YOLOv3算法在公路车道线检测中平均准确率(Mean average precision, mAP)为95%, 检测速度可达50帧/s, 较YOLOv3原始算法mAP值提升了11%, 且明显高于其他车道线检测方法.Abstract: Aiming at the problem that the YOLOv3 algorithm has low accuracy, high probability of missed detection when detecting road lane lines, a road lane detection method for improving YOLOv3 network structure is proposed. At first, the method divides the image into multiple grids, and uses the K-means++ clustering algorithm to determine the number of target priori boxes and the corresponding value according to the inherent characteristics of the road lane line width and height. Then, according to the clustering result, the network anchor parameter is optimized to make the training network have certain pertinence in lane line detection. At last, the features extracted by the Darknet-53 are spliced, the network structure of the YOLOv3 algorithm is improved, and the GPU is used for multi-scale training to obtain the optimal weight model, thereby detecting the lane line target in the image and selecting the bounding box with the highest confidence to mark. Using the image information in the Caltech Lanes database for comparison experiments, the experimental results show that the improved YOLOv3 algorithm's mean average precision is 95% in road lane detection, the improved detection speed can be achieved 50 frame/s, which is 11% higher than the original algorithm and significantly higher than other lane detection methods.
-
Key words:
- Lane detection /
- deep learning /
- YOLOv3 /
- K-means++ /
- computer vision
-
图像修复是指对图像中缺失或损坏区域进行修复重建的过程, 它是计算机视觉技术领域的重点研究内容之一, 其在图像编辑、图像渲染等诸多领域具有重要实用价值[1-8]. 如何在图像破损区域合成与现有上下文区域结构语义一致、内容准确、细节丰富的局部图像信息, 是图像修复方法需要解决的难点问题.
根据所利用特征级别的不同, 现有图像修复方法可分为两大类: 1)利用低级非语义特征的方法; 2)利用高级语义特征的方法. 其中, 利用低级非语义特征的图像修复方法为传统的图像修复方法, 通常基于扩散或图像块匹配机制将非破损区域的低级特征“粘贴”到破损区域. 此类方法对特定的图像缺损类型有着优秀的修复效果. 例如基于扩散的方法将图像信息从破损区域边界往内部进行传播, 可以有效地修复“抓痕”这样的细小破损. 基于图像块匹配的方法在背景修复方面性能强大, 并广泛应用于商用软件中. 然而, 此类利用低级非语义特征的图像修复方案无法对破损区域的上下文进行深入理解, 即无法获取图像的高级语义特征, 使得此类方法对高度模式化的图像(比如人脸)无法实现很好的修复效果.
利用高级语义特征的方法, 从大规模数据中学习高级语义特征, 大大提升了修复性能. 其中, 基于生成式对抗网络GANs[9] (Generative adversarial nets)的方法已成为图像修复领域的主流. 基于GANs的方法将图像修复问题转化为基于条件生成对抗网络[10]的条件生成问题. 此类方法通常以破损图像与标定破损区域的掩码作为条件输入, 采用自动编码器网络作为生成器来重建缺损区域的内容, 并结合判别器网络以对抗方式训练, 最终得到完整的图像输出. 为有效地综合利用图像上下文区域的特征, GL[11] (Globally and locally consistent image completion)引入级联扩张卷积, 并将其集成到自动编码器网络的“瓶颈区”. 虽然扩张卷积可以在一定程度上将远距离特征纳入其感受野中, 以达到综合利用远距离特征的目标; 但是扩张卷积有较大的空穴区域, 以规则对称的网格方式采样图像特征, 从而造成远距离重点区域特征被忽略. MC[1] (Multi-column convolutional), CA[2] (Contextual attention)以及CI[12] (Contextual-based inpainting)等方案采用单级上下文注意力方案, 计算图像上下文的语义相似度, 显式地从破损图像的未破损区域中借取有意义的图像表达, 缓解了远距离特征无法有效利用的问题.
然而, 以上这些方法通常无法为场景复杂图像的缺损区域生成结构合理、细节丰富的内容. 如图1(b)所示, 修复结果图像中明显存在整体性或局部性结构错乱, 此外生成图像还存在语义特征重建不够细致的问题, 即对图像语义(比如人脸图像的眼睛、鼻子等部分)重建比较模糊.
如图2所示为当前主流图像修复方案通常采用的自动编码器生成网络. 缺损图像经过编码器编码得到浅层特征, 将浅层特征送入“瓶颈区”进行特征提取, 然后再由解码器解码为完整图像. 我们通过研究发现此类自动编码器结构存在非常严重的特征传递受阻问题, 其“瓶颈区”高级特征的截面过大(一般为64×64像素大小). 大截面特征使得扩张卷积与单级注意力特征匹配等方案[2, 11-12]无法充分获取结构与细节特征, 同时阻碍了结构和细节特征在网络中传播, 从而导致了修复结果中出现结构错乱和语义对象模糊等现象.
如图3所示, 针对特征传递受阻问题, 我们对自动编码器结构中的“瓶颈区”网络部分进行以下两步改进: 第1步, 多级特征压缩. 将编码器与解码器之间的“瓶颈网络”中大小为h×w×c像素的高级特征分别按照0、2、4、8压缩率进行缩放, 构建多级压缩特征, 即F0、Fc2、Fc4和Fc8. 越高压缩率的特征, 其尺度越小. 若按照特征尺度大小对多级压缩特征进行排列, 其结果为F0>Fc2>Fc4>Fc8. 多级压缩特征在特征表达方面是互补的, 越小尺度的特征中有着越小的结构特征空间, 网络更容易从中搜索出有意义的结构表达, 但是越小尺度特征越缺乏细节信息; 与之相反, 越大尺度特征中虽然在结构表达能力上更弱, 却有着越丰富的细节特征, 网络更容易从中搜索出有意义的细节表达. 因此, 大小尺度特征之间的这种互补性为第2步, 即多级注意力传播, 提供了巨大潜力. 多级注意力传播可以充分利用不同压缩特征对不同特征(结构/细节)表达方面的优势. 具体来说, 我们分别对各级压缩特征Fc8、Fc4、Fc2和F0依次执行注意力匹配与替换, 得到注意力特征; 并依据从小尺度到大尺度的顺序对注意力特征进行分级传播. 如图3所示注意力特征A8与压缩特征Fc4结合, 将小尺度注意力特征传播至更高尺度. 其后注意力特征A4再以相同的过程传播至A2和A0. 由于前一级注意力特征匹配替换的结果总比后一级有更准确的结构表达; 后一级紧凑的压缩特征总比前一级有更多的细节特征. 因此, 多级注意力的传播方案可以促使网络在多个尺度下既保持图像结构准确, 又不断地丰富细节. 相比当前基于单级注意力的图像修复方案[1-2, 12], 我们的多级方案可以得到更加丰富的深度特征.
同时, 与当前主流方法中由“粗”到“细”的多阶段方案不同, 我们期望在一个阶段内实现细粒度图像重建. 为此, 我们还提出了一种复合粒度判别器网络对图像修复过程进行全局语义约束与非特定局部密集约束. 其中, 全局语义约束由全局判别器实现, 该判别器的输出为一个评价图像整体真实度得分的值; 非特定局部密集约束由局部密集判别器实现, “非特定局部”与“密集”体现在我们的局部密集判别器所执行的是对图像内多个相互重叠的局部区域进行密集地判别. 因此, 这种密集局部判别方式非常适合处理不规则破损情况下的修复任务.
在包括人脸、建筑立面和自然图像在内的多个数据集上进行的大量实验表明, 本文所提出的多级注意力传播驱动的生成式图像修复方法所生成的图像修复结果比现有方法拥有更高的图像质量.
综上所述, 本文的贡献如下: 1)提出了一种端到端的图像修复模型, 该模型通过对全分辨率的图像上下文进行编码, 将提取的高级特征压缩为多尺度紧凑特征, 并依据尺度大小顺序驱动紧凑特征进行多级注意力特征传播, 实现了包括结构和细节在内的高级特征在网络中的充分传播. 2)提出了一种复合粒度判别器, 对图像进行全局语义约束与非特定局部密集约束, 使得图像修复在单个前向过程中同时实现高质量的细粒度重建.
1. 相关工作概述
1.1 传统图像修复方法
利用图像级低级非语义特征的传统图像修复方法[7, 13-18]可分为两类: 基于扩散的方法和基于图像块的方法. 基于扩散的方法利用距离场等机制将图像信息从相邻像素传播到目标区域, 对于图像的小面积或类抓痕的窄缺损区域有着非常有效的修复效果. 当缺损区域面积过大或纹理变化很大时, 它们通常会生成明显的视觉伪影. 基于图像块的方法首先用于纹理合成, 然后扩展到图像修复. 与基于扩散的方法相比, 基于图像块的方法能够修复场景更复杂的图像. 通常, 基于图像块的方法采用迭代方式, 从同一图像的非缺损区域或外部图像库中采样相似的信息来填补缺损区域. 由于必须计算每个目标-源对的相似度分数, 因此此类方法需要大量的计算和内存开销. PatchMatch[3]是一种典型的基于图像块的方法, 它通过快速最近邻域算法解决了这个问题, 极大地加快了传统算法的速度, 取得了较高质量的修复效果. 基于图像块的方法假设修复区域的纹理可以在图像的其他区域找到, 然而这种假设未必时时成立, 因此限制了该方法的应用范围; 此外, 由于缺乏对图像的高层语义理解, 基于图像块的方法无法为人脸等高度模式化破损图像重建出语义合理的结果. 因此, 无论基于扩散还是基于图像块的传统修复方法, 均不具备感知图像高级语义的能力.
1.2 基于深度学习的图像修复方法
近年来, 基于深度学习的图像修复方法从大规模数据中学习高级语义表示, 大大提高了修复效果. Context Encoder[19]是最早用于语义图像修复的深度学习方法之一. 它采用自动编码器结构, 通过最大限度地降低像素级重建损失和对抗损失, 实现了对128×128图像中心区域存在的64×64矩形缺损区域的修复. 编码器将带有破损区域的图像映射到高级特征空间, 该特征空间用于解码器重构完整的输出图像. 然而, 由于通道维全连通层的信息瓶颈以及对图像局部区域缺乏约束, 该方法输出图像的重建区域往往出现明显的视觉伪影. Iizuka等[11]通过减少下行采样层的数量, 用一系列膨胀卷积层代替通道全连接层, 在一定程度上解决了上下文编码器的信息瓶颈问题. 同时, Iizuka等[11]还引入了一种局部判别器来提高图像的质量. 然而, 这种方法需要复杂的后处理步骤, 如泊松混合, 以增强孔边界附近的颜色一致性. Yang等[12]和Yu等[2]将粗到细的卷积网络配置方案引入到了图像修复中. 该方案在第1步使用深度卷积神经网络实现对破损区域的粗略估计. 进而, 在第2步的深度卷积网络中, 利用注意力机制或特征块交换操作, 搜索图像上下文中最相似的特征块并替换缺失区域内的特征块, 从而得到细化的输出结果. 然而, 这两种方案在不规则破损区域修复上并没有很好的泛化能力. Wang等[1]提出了一种用于图像修复的多列生成网络, 设计了置信值驱动的重建损失, 并采用了隐式多样马尔科夫随机场(Implicit diversified Markov random field, ID-MRF) 正则化方案来增强局部细节. 它在矩形和不规则掩码上都取得了很好的效果. Liu等[20]在图像修复中引入部分卷积, 对卷积进行了掩盖和重新归一化, 仅利用非破损区域的有效像素, 有效地解决了基于卷积所带来的色差、模糊等伪影问题.
2. 多级注意力传播网络
如图4所示, 我们提出的多级注意力传播网络由两部分组成: (a)多级注意力传播生成器G, (b)复合判别器D. 多级注意力传播网络生成器是针对图像修复任务改进的自动编码器, 通过编码过程、多级注意力传播过程与解码过程重建图像的破损区域. 复合判别器网络D通过将G生成的图像判别为“假”来惩罚G, 从而促进G生成真实图. 我们将从破损图像到完整图像的学习过程描述为一个映射函数, 该映射函数将破损图像流形z映射到完整图像流形x. 为了简化符号, 我们还将使用这些符号来表示它们各自网络的功能映射.
2.1 多级注意力传播网络生成器
如图4所示, 我们的多级注意力传播生成器G主要由特征提取网络、多级注意力传播网络、上采样网络等3个子网络构成. 设
${I_ {\rm input}} = z$ 和${I_ {\rm {output}}} = $ $ G(z)$ 为多级注意力传播网络生成器的输入和输出. 在浅层特征提取阶段, 提取浅层特征${F_{ - 1}}$ :$${F_{ - 1}} = Enc({I_{\rm {input}}})$$ (1) 其中
$Enc(\cdot)$ 为编码器网络. 该网络的编码器首先进行平坦卷积, 然后采用下采样与卷积操作对受损图像进行压缩编码.其次, 将提取的有用局部特征
${F_{ - 1}}$ 进行特征细化:$$ {F_0} = Bot({F_{ - 1}}) $$ (2) 其中
$Bot(\cdot)$ 为由4层扩张卷积级联组成的“瓶颈区”网络, 卷积核尺寸为3×3, 膨胀率分别为2、4、8、16.接下来, 进行多级注意力传播. 注意力多级传播的第一步是将细化后的高级特征缩放为多级压缩特征:
$$ {F_{c8}} = {C^8}\left( {{F_0}} \right) $$ (3) $$ {F_{c4}} = {C^4}({F_0}) $$ (4) $$ {F_{c2}} = {C^2}({F_0}) $$ (5) 其中
${C^n}(\cdot)$ 为特征缩放操作, n为缩放率, 表示特征尺寸缩放为原来的1/n.随后, 对压缩特征进行基于注意力的多级特征匹配与传播, 以小尺度结果引导后续处理:
$${A_0} = At{t^0}({A_2} \oplus {F_{0}})$$ (6) $$ {A_2} = At{t^2}({A_4} \oplus {F_{c2}}) $$ (7) $${A_4} = At{t^4}({A_8} \oplus {F_{c4}})$$ (8) $${A_8} = At{t^8}({F_{c8}})$$ (9) 其中
$ \oplus $ 表示通道维叠加,$At{t^l}(\cdot)$ 为在压缩率为l的特征上进行的匹配替换与传播操作, 更多细节将在第3.2节中给出.最终, 经过多级注意力特征配替换与传播后, 采用上采样网络将高级特征映射转化为完整的输出图像:
$$ {I_{\rm {output}}} = Dec({A_0}) $$ (10) 其中
$Dec(\cdot)$ 为解码器网络, 对特征${A_0}$ 进行两次上采样得到完整的重建图像.2.2 基于注意力的特征匹配与传播
我们采用当前最先进的注意力特征匹配方案[2, 12, 21]. 注意力通常是通过计算缺失区域内外的图像块或特征块之间的相似度来获得的. 因此可以将缺失区域外的相关特征进行转移, 即通过相似度关系将图像上下文的图像块/特征块加权复制到缺失区域内部. 图5所示,
$At{t^l}(\cdot)$ 首先从压缩特征${F_c}$ 中学习区域亲和力, 即从${F_c}$ 中提取特征块并计算破损区域内部特征块和外部特征块之间的余弦相似性:$$s_{i,j}^l = \left\langle \frac{{p_i^l}}{{{{\left\| {p_i^l} \right\|}_2}}},\frac{{p_j^l}}{{{{\left\| {p_j^l} \right\|}_2}}}\right\rangle $$ (11) 其中
$p_i^l$ 是提取自${F_c}$ 破损区域之外第i个特征块,$p_j^l$ 为从${F_c}$ 破损区域内提取的特征块. 然后用softmax对相似性进行处理, 得到每个图像块的注意分值:$$ a_{j,i}^l = \frac{{\exp (s_{i,j}^l)}}{{\sum\limits_{i = 1}^N {\exp (s_{i,j}^l)} }} $$ (12) 从高级特征图中获取注意分值后, 采用基于注意分值加权的上下文填充相似特征块中的破损区域:
$$ p_j^l = \sum\limits_{i = 1}^N {a_{j,i}^l} p_i^l $$ (13) 其中
$p_i^l$ 为从${F_c}$ 破损区域外提取的第i个特征块,$p_j^l$ 为填充缺失区域的第j个特征块. 所有这些运算都可以表示为卷积运算, 用于端到端训练[2]. 我们将每一级$At{t^l}(\cdot)$ 得到的特征进行上采样, 以引导下一层的注意力的传播. 这样的设计在保证图像结构在多个尺度上一致性的同时, 并逐级丰富图像细节. 值得注意的是, 在我们的方案中最紧凑的压缩特征的大小只有8×8×c, 因此在注意力匹配的过程中无需额外的扩张卷积进行远距离特征借取.2.3 复合判别器网络
作为生成网络的补充, 复合判别器网络D用于判断G生成的图像是否足够真实. 在图像修复中, 高质量的图像不仅取决于图像的整体特征, 还取决于图像局部对象的特征. 不同于全局与局部判别器来分别约束全局与局部破损区域, 我们设计了复合判别器来实现全局语义约束与非特定局部密集约束.
如图4(b)所示, 全局语义约束与非特定局部密集约束分别由全局判别器D1与非特定局部密集判别器D2来实现. 全局判别器由卷积层与全连接层构成, 输出为一个评价图像整体真实度得分的值. 非特定局部密集判别器类似Patch-GAN[22]结构, 由5个的步长卷积(内核大小为5, 步长为2)进行叠加构成. 输入由图像和掩模通道组成, 输出为形状为
${R^{h \times w \times c}}$ 的三维特征图, 其中h、w、c分别表示通道的高度、宽度和数量. 然后, 我们将判别器的损失直接应用到判别器最后一层特征图的每个元素上, 形成针对输入图像局部不同位置的数量为h×w×c的生成对抗网络. 复合判别器网络中全局判别器与非特定局部密集判别器在功能方面为相互补充的. 全局判别器针对全局的约束, 促使生成的图像破损区域与非破损区域在全局层面实现自然过渡; 而非特定局部密集判别器对图像内多个局部区域进行密集的有重叠的判别, 使得图像局部拥有丰富的细节纹理.3. 损失函数
损失函数由三部分组成: 1)对抗损失
${L_{\rm {adv}}}$ ; 2)特征匹配损失${L_{\rm {match}}}$ ; 3)重构损失${L_{\rm {rec}}}$ . 整体的目标函数可以表示为:$$ L = {L_{\rm {adv}}} + {\omega _1}{L_{\rm {match}} }+ {\omega _2}{L_{\rm {rec}}} $$ (14) 其中损失项的平衡参数
${\omega _1}{\rm{ = 1}}$ 、${\omega _2}{\rm{ = 1\ 000}}$ .3.1 生成对抗损失
${L_{\rm {adv}}}$ 我们方法采用改进的Wasserstein GAN[23], 对抗损失同时应用于网络G和网络D, 最终影响生成网络G对破损图像的重构过程. 复合判别器网络D的输出值代表生成网络G的输出图像与真实图像的相似程度, 被用来惩罚并促使生成网络G生成更真实图像. 我们的复合判别器网络D由D1和D2组成. 对抗性损失可以表示为:
$$ \begin{split} {L_{adv}} =\;& {{E}_{x \sim pdata}}\left[ {\log {D_1}(x)} \right] +\\ & {{E}_{x \sim pdata}}\left[ {\log {D_2}(x)} \right]+ \\ & {{E}_{z \sim pz}}\left[ {\log (1 - {D_1}(G(z)))} \right]+ \\ & {{E}_{z \sim pz}}\left[ {\log (1 - {D_2}(G(z)))} \right] \end{split} $$ (15) 3.2 特征匹配损失
${L_{\rm {match}}}$ 特征匹配损失
${L_{\rm {match}}}$ 用来比较判别器中间层的激活映射, 迫使生成器生成与真实图像相似的特征表示, 从而稳定训练过程, 这类似于感知损失[24-26]. 不同于感知损失比较从预先训练的VGG网络获取到来自真值图像与输出图像的激活映射, 特征匹配损失比较的是判别器中间层激活映射. 我们定义特征匹配损失${L_{\rm {match}}}$ 为:$$ \begin{split} {L_{\rm {match}}} =\;& \sum\limits_{i = 1}^L {\frac{1}{{{N_i}}}{{\left\| {{D_1}^{(i)}(x) - {D_1}^{(i)}(G(z))} \right\|}_1}} +\\ & \sum\limits_{i = 1}^L {\frac{1}{{{N_i}}}{{\left\| {{D_2}^{(i)}(x) - {D_2}^{(i)}(G(z))} \right\|}_1}} \end{split} $$ (16) 其中L为判别器的最终卷积层, Ni为第i个激活层的元素个数,
${D_1}^{(i)}$ 为判别器D1第i层的激活映射,${D_2}^{(i)}$ 为判别器D2第i层的激活映射.3.3 重建损失
${L_{\rm {rec}}}$ 图像修复不仅要保证修复好的图像具有语义真实感, 而且要对图像进行像素级精确重建. 因此, 对于像素级重建过程, 我们定义了L1重建损失:
$$ {L_{\rm {rec}}} = {\left\| {x - G(z)} \right\|_1} $$ (17) 4. 实验
4.1 数据集
我们使用3个面向于图像修复任务的国际公认通用图像数据集来验证我们的模型(数据集分割如表1所示).
表 1 3个数据集的训练和测试分割Table 1 Training and test splits on three datasets数据集 训练 测试 总数 Facade 506 100 606 CelebA-HQ 28000 2000 30000 Places2 8026628 328500 8355128 –Places2[27]数据集: MIT发布的数据集, 包含超过800万张来自365个场景的图像.
–CELEBA-HQ[28]数据集: 来自CelebA的高质量人脸数据集.
–Facade[29]数据集: 世界各地不同城市建筑立面集合.
4.2 实验设置
在Windows 10系统上使用Python开发编译了本文所提出方法的程序代码. 编译测试所用的深度学习平台软件配置为TensorFlow v1.8、CUDNN v7.0和CUDA v9.0; 核心硬件配置为Intel 8700 3.20 GHz的CPU, 12G NVIDIA TITAN XP的GPU. 我们使用Adam优化器对批量大小为6的模型进行训练, beta1与beta2分别设定为0和0.9. 在模型训练初始阶段的学习率设置为1×10−4, 随后再使用1×10−5学习率对模型进行微调. 在模型训练过程中, 训练集中的全部图像均被缩放至256×256大小. 训练好的模型可在CPU及GPU上运行, 不论缺损面积大小, 修复过程在Intel(R) Core(R) CPU上平均运行时间为1.5秒, 在NVIDIA(R) TITAN XP GPU上平均运行时间为0.2秒. 本文中全部实验结果都是从训练好的模型中直接输出的, 未进行任何后期处理.
4.3 对比模型
我们将与以下经典主流方案进行比较:
–PatchMatch (PM)[3]: 一种典型的基于图像块的方法, 从周围环境复制类似的图像块.
–CA[2]: 一个两阶段的图像修复模型, 利用了高层次的上下文注意特征.
–MC[1]: 为图像修复模型设计了一个置信值驱动的重建损失, 并采用了隐式多样马尔可夫随机场正则化来增强局部细节.
5. 结果与验证
5.1 实验结果
我们将本文方法与第4.3节中当前经典主流方案分别进行了定性和定量分析, 以证明本文方法的优越性.
定性比较. 图6、图7和图8分别展示了我们的方法在Places2、Facade和CelebA-HQ数据集上和对比方法之间的对比结果. 在大多数情况下, 我们的图像修复结果比对比方法在结构重建方面表现得更准确合理. 与其他方法相比, 我们提出的方法在细节纹理重建上表现得更加细致.
定量比较. 我们使用PSNR、SSIM和平均L1损失等指标来客观衡量修复结果的质量. 其中, PSNR和SSIM可以大致反映模型重构原始图像内容的能力, 为人类的视觉感知提供了良好的近似. 平均L1损失直接测量重建图像与真值图像之间的L1距离, 是一个非常实用的图像质量评估指标. 如表2所示, 我们的方法在Places2、CelebA-HQ和Facade数据集中取得了最优的结果, 其中SSIM、PSNR是最高的, 平均L1损失是最低的.
表 2 CelebA-HQ、Facade和Places2数据集上的定量对比Table 2 Quantitative comparisons on CelebA-HQ, Facade and Places2数据集 掩码率 PSNR SSIM Mean L1 loss CA MC Ours CA MC Ours CA MC Ours CelebA-HQ 10% ~ 20% 26.16 29.62 31.35 0.901 0.933 0.945 0.038 0.022 0.018 20% ~ 30% 23.03 26.53 28.38 0.835 0.888 0.908 0.066 0.038 0.031 30% ~ 40% 21.62 24.94 26.93 0.787 0.855 0.882 0.087 0.051 0.040 40% ~ 50% 20.18 23.07 25.46 0.727 0.809 0.849 0.115 0.069 0.052 Facade 10% ~ 20% 25.93 27.05 28.28 0.897 0.912 0.926 0.039 0.032 0.028 20% ~ 30% 25.30 24.49 25.36 0.870 0.857 0.871 0.064 0.052 0.047 30% ~ 40% 22.00 23.21 24.53 0.780 0.815 0.841 0.084 0.068 0.059 40% ~ 50% 20.84 21.92 23.32 0.729 0.770 0.803 0.106 0.086 0.074 Places2 10% ~ 20% 22.49 27.34 27.68 0.867 0.910 0.912 0.059 0.031 0.029 20% ~ 30% 19.95 24.58 25.05 0.786 0.854 0.857 0.097 0.051 0.048 30% ~ 40% 18.49 22.72 23.41 0.714 0.800 0.805 0.131 0.071 0.066 40% ~ 50% 17.54 21.42 22.29 0.658 0.755 0.765 0.159 0.089 0.081 5.2 方案有效性分析
我们在建筑立面数据集上分别进行了两个分解实验来验证我们所提出方案的有效性. 为了更清楚地展示实验结果, 所有的实验均为矩形中心掩码情况下的图像修复结果.
1) 多级注意力传播的有效性
图9(a)为输入图像, 图9(b)为有注意力传播时的图像修复结果, 图9(c)为无注意力传播时的图像修复结果, 图9(d)为原图. 具体来说, 这次试验参与对比的分别为本文提出方案的结果与本文方案除去多级注意力传播时的结果. 可以看出在多级注意力传播的帮助下本文所提出的方案有着更准确的结构重建能力.
2) 复合判别器网络的有效性
如图10(a)为输入图像, 图10(b)为有复合判别器时的图像修复结果, 图10(c)为无复合判别器时的图像修复结果, 图10(d)为原图. 可以看出在复合粒度判别器的帮助下本文所提出的方案有着更细腻的细节重建能力.
5.3 组件研究
为验证多级注意力机制以及复合粒度判别器网络的有效性, 我们以平均L1损失为性能参考(平均L1损失越小性能越好), 进行了对比定量研究, 结果如表3所示. 其中, Att0至Att8为注意力组件, Single-D为单全局判别器, Cg-D为本文所提出的复合粒度判别器.
表 3 组件有效性研究Table 3 Effectiveness study on each componentAtt8 无 有 有 有 有 有 Att4 无 无 有 有 有 有 Att2 无 无 无 有 有 有 Att0 无 无 无 无 有 有 Single-D 有 有 有 有 有 无 Cg-D 无 无 无 无 无 有 Mean L1 loss 0.091 0.089 0.086 0.081 0.078 0.074 从表3中我们可以看出, 多级注意力传播可以在很大程度上提升网络性能, 同时由于复合粒度判别器对全局语义与非特定局部的密集约束, 网络性能得到了进一步提升.
5.4 泛化应用研究
为进一步验证我们方法的泛化能力, 我们还通过对所提出模型进行对象移除实际应用研究.
如图11所示, 在示例(a)中, 我们尝试删除人脸图像中的眼镜. 我们可以看到本文方法都成功地删除了眼镜, 并在眼镜区域重建出了清晰自然的人眼. 在示例(b)中, 我们的模型将面部大面积区域移除, 并重建出合理的结果. 值得注意的是, 示例(a)与示例(b)人脸图像均不是正视前方, 而在训练过程中, 整个训练集中的非正视前方图像只占据少数, 这从侧面说明了本文方法具有良好的泛化能力. 更多的成功移除特定对象, 重建出高品质的结果见示例(c)、(d)、(e)、(f).
6. 总结
本文提出了一种基于层级注意力传播的图像修复网络. 为解决图像修复结果中的结构错乱与语义对象模糊问题, 我们提出将编码器编码的高级语义特征进行多尺度压缩和多层级注意力特征传播, 以实现包括结构和细节在内的高级特征的充分利用. 同时, 为实现在一个阶段内完成粗粒度与细粒度图像的同步重建, 我们提出了一种复合粒度判别器网络对图像修复过程进行全局语义约束与非特定局部密集约束. 大量实验表明, 与经典主流方法相比, 我们提出的方法可以产生更高质量的修复结果.
-
表 1 不同
$k$ 值对应的先验框宽高Table 1 The width and height of priori boxes corresponding to different
$k$ values$k$ = 7 $k$ = 8 $k$ = 9 $k$ = 10 $k$ = 11 (6, 9) (6, 9) (6, 9) (5, 12) (5, 7) (10, 15) (8, 12) (9, 14) (5, 17) (7, 11) (13, 21) (11, 17) (12, 18) (7, 11) (10, 14) (19, 30) (15, 24) (15, 24) (10, 14) (10, 18) (27, 44) (20, 32) (20, 32) (11, 18) (13, 20) (36, 60) (26, 43) (26, 43) (15, 24) (16, 25) (141, 10) (36, 69) (32, 51) (20, 32) (21, 32) — (141, 10) (40, 69) (27, 44) (26, 43) — — (141, 10) (36, 60) (32, 51) — — — (141, 10) (40, 70) — — — — (141, 10) -
[1] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望. 自动化学报, 2017, 43(08): 1289-1305Zhang Hui, Wang Kun-Feng, Wang Fei-Yue. Advances and perspectives on applications of deep learning in visual object detection. Acta Automatica Sinica, 2017, 43(08): 1289-1305 [2] 尹宏鹏, 陈波, 柴毅, 刘兆栋. 基于视觉的目标检测与跟踪综述. 自动化学报, 2016, 42(10): 1466-1489Yin Hong-Peng, Chen Bo, Chai Yi, Liu Zhao-Dong. Vision-based object detection and tracking: a review. Acta Automatica Sinica, 2016, 42(10): 1466-1489 [3] 《中国公路学报》编辑部. 中国汽车工程学术研究综述. 中国公路学报, 2017, 30(06): 1-197 doi: 10.3969/j.issn.1001-7372.2017.06.001Editorial department of china journal of highway and transport. Review on China's automotive engineering research progress. China Journal of Highway and Transport, 2017, 30(06): 1-197 doi: 10.3969/j.issn.1001-7372.2017.06.001 [4] 田娟秀, 刘国才, 谷珊珊, 鞠忠建, 刘劲光, 顾冬冬. 医学图像分析深度学习方法研究与挑战. 自动化学报, 2018, 44(03): 401-424Tian Juan-Xiu, Liu Guo-Cai, Gu Shan-Shan, Ju Zhong-Jian, Liu Jin-Guang, Gu Dong-Dong. Deep learning in medical image analysis and its challenges. Acta Automatica Sinica, 2018, 44(03): 401-424 [5] 李文英, 曹斌, 曹春水, 黄永祯. 一种基于深度学习的青铜器铭文识别方法. 自动化学报, 2018, 44(11): 2023-2030Li Wen-Ying, Cao Bing, Cao Chun-Shui, Huang Yong-Zhen. A deep learning based method for bronze inscription recognition. Acta Automatica Sinica, 2018, 44(11): 2023-2030 [6] 唐智威. 基于视觉的无人驾驶汽车研究综述. 制造业自动化, 2016, 38(8): 134-136 doi: 10.3969/j.issn.1009-0134.2016.08.032Tang Zhi-Wei. A review of driverless cars based on vision. Manufacturing Automation, 2016, 38(8): 134-136 doi: 10.3969/j.issn.1009-0134.2016.08.032 [7] He B, Ai R, Yan Y. Accurate and robust lane detection based on dual-view convolution neutral network. In: Proceedings of the 2016 Intelligent Vehicles Symposium. Gothen, Sweden: IEEE, 2016. 1041−1046 [8] Li J, Mei X, Prokhorov D, Tao D. Deep neural network for structural prediction and lane detection in traffic scene. Neural Networks and Learning Systems, 2017, 28(3): 690-703 doi: 10.1109/TNNLS.2016.2522428 [9] 陈无畏, 胡振国, 汪洪波, 魏振亚, 谢有浩. 基于可拓决策和人工势场法的车道偏离辅助系统研究. 机械工程学报, 2018, 54(16): 134-143 doi: 10.3901/JME.2018.16.134Chen Wu-Wei, Hu Zhen-Guo, Wang Hong-Bo, Wei Zhen-Ya, Xie You-Hao. Study on extension decision and artificial potential field based lane departure assistance system. Journal of Mechanical Engineering, 2018, 54(16): 134-143 doi: 10.3901/JME.2018.16.134 [10] 冯学强, 张良旭, 刘志宗. 无人驾驶汽车的发展综述. 山东工业技术, 2015, 2015(05): 51Feng Xue-Qiang, Zhang Liang-Xu, Liu Zhi-Zong. Overview of the development of driverless cars. Shandong Industrial Technology, 2015, 2015(05): 51 [11] 余天洪, 王荣本, 顾柏园, 郭烈. 基于机器视觉的智能车辆前方道路边界及车道标识识别方法综述. 公路交通科技, 2006, 2006(01): 139-142+158 doi: 10.3969/j.issn.1002-0268.2006.01.034Yu Tian-Hong, Wang Rong-Ben, Gu Bai Yuan, Guo Lie. Survey on the vision-based recognition methods of intelligent vehicle road boundaries and lane markings. Journal of Highway and Transportation, 2006, 2006(01): 139-142+158 doi: 10.3969/j.issn.1002-0268.2006.01.034 [12] Aly M. Real time detection of lane markers in urban streets. In: Proceedings of the 2008 Intelligent Vehicles Symposium. Eindhoven, the Netherlands: IEEE, 2008. 7−12 [13] Turchetto R, Manduchi R. Visual curb localization for autonomous navigation. In: Proceedings of the 2003 International Conference on Intelligent Robots and Systems. Las Vegas, USA: IEEE, 2003. 1336−1342 [14] Dang H S, Guo C J. Structure lane detection based on saliency feature of color and direction. In: Proceedings of the 2014 International Conference on Advances in Materials Science and Information Technologies in Industry. Xi'an, China: Science, 2014. 2876−2879 [15] Du X X, Tan K K, Htet K K K. Vision-based lane line detection for autonomous vehicle navigation and guidance. In: Proceedings of the 10th Asian Control Conference. Kota Kinabalu, Malaysia: IEEE, 2015. 1−5 [16] 李彦冬, 郝宗波, 雷航. 卷积神经网络研究综述. 计算机应用, 2016, 36(09): 2508-2515Li Yan-Dong, Hao Zong-Bo, Lei Hang. Survey of convolutional neural network. Journal of Computer Applications, 2016, 36(09): 2508-2515 [17] 李茂晖, 吴传平, 鲍艳, 房卓群. 论YOLO算法在机器视觉中应用原理. 教育现代化, 2018, 5(41): 174-176Li Mao-Hui, Wu Chuan-Ping, Bao Yan, Fang Zhuo-Qun. On the application principle of YOLO algorithm in machine vision. Journal of Computer Applications, 2018, 5(41): 174-176 [18] Girshick R, Donahue J, Darrell T, Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the 2014 Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014. 580−587 [19] Girshick R. Fast R-CNN. In: Proceedings of the 2015 International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 1440−1448 [20] Ren S, He K, Girshick R, Sun J. Faster R-CNN: towards real-time object detection with region proposal networks. Pattern Analysis and Machine Intelligence, 2017, 39(60): 1137-1149 [21] Kim J, Lee M. Robust lane detection based on convolutional neural network and random sample consensus. In: Proceedings of the 2014 International Conference on Neural Information Progressing. Springer, Cham: 2014. 454−461 [22] Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: Unified, real-time object detection. In: Proceedings of the 2016 Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 779−788 [23] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger. In: Proceedings of the 2017 Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. 6517−6525 [24] 魏湧明, 全吉成, 侯宇青阳. 基于YOLO v2的无人机航拍图像定位研究. 激光与光电子学进展, 2017, 54(11): 101-110Wei Yong-Ming, Quan Ji-Cheng, Hou Yu-Qing-Yang. Aerial image location of unmanned aerial vehicle based on YOLO v2. Laser and Optoelectronics Progress, 2017, 54(11): 101-110 [25] Lee S, Kim J, Yoon J S, Shin S, Bailo O, Kim N, et al. VPGNet: Vanishing point guide network for lane and road marking detection and recognition. In: Proceedings of the 2017 International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 1965−1973 [26] Redmon J, Farhadi A. YOLOv3: An incremental improvement. In: Proceedings of the 2018 Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: 2018. 1−4 期刊类型引用(23)
1. 郭心悦,韩星宇,习超,王辉,范自柱. 基于非对称卷积的多车道线检测方法. 计算机工程与设计. 2024(02): 428-435 . 百度学术
2. 苏盈盈,何亚平,邓圆圆,刘兴华,阎垒,斯洪云. 基于改进YOLOv5s轻量化带钢表面缺陷检测方法. 光电子·激光. 2024(07): 723-730 . 百度学术
3. 张云佐,郑宇鑫,武存宇,张天. 基于双特征提取网络的复杂环境车道线精准检测. 吉林大学学报(工学版). 2024(07): 1894-1902 . 百度学术
4. 刘德儿,李雨晴. 激光点云特征与知识规则协同的车道线提取. 激光与红外. 2024(07): 1069-1075 . 百度学术
5. 蒋源,张欢,朱高峰,朱凤华,熊刚. 融合多尺度特征的残差车道线检测网络. 测绘通报. 2024(10): 71-76 . 百度学术
6. 杨威,杨俊,许聪源. 基于改进YOLOv5的带钢表面缺陷检测. 计量学报. 2024(11): 1671-1680 . 百度学术
7. 陈涵露,宋小军. 变光照下基于改进的deeplabv3+的车道线检测方法. 计算机仿真. 2024(11): 178-181+452 . 百度学术
8. 廖龙杰,吕文涛,叶冬,郭庆,鲁竞,刘志伟. 基于深度学习的小目标检测算法研究进展. 浙江理工大学学报(自然科学). 2023(03): 331-343 . 百度学术
9. 石金鹏,张旭. 基于空间语义分割的多车道线检测跟踪网络. 光学精密工程. 2023(09): 1357-1365 . 百度学术
10. 王晓云,夏杰,刘凤丽,郭金玉. 交通标志识别综述. 长江信息通信. 2023(08): 76-78 . 百度学术
11. 王燕妮,贾瑞英. 基于改进YOLOv3的轻量级目标检测算法. 探测与控制学报. 2023(05): 98-105 . 百度学术
12. 徐治国. 数字信息化技术在市政道路运维管理中的实践探索. 中国建设信息化. 2023(20): 108-111 . 百度学术
13. 杨飞帆,李军. 面向自动驾驶的YOLO目标检测算法研究综述. 汽车工程师. 2023(11): 1-11 . 百度学术
14. 杨静,郎璐红,马书香,徐慧. 基于优化ERFNet的智能车辆车道线精确检测算法. 黑龙江工业学院学报(综合版). 2023(10): 109-114 . 百度学术
15. 张林,谢刚,谢新林,张涛源. 融合MobileNetv3与Transformer的钢板缺陷实时检测算法. 计算机集成制造系统. 2023(12): 3951-3963 . 百度学术
16. 赵世达,王树才,郝广钊,张一驰,杨华建. 基于单阶段目标检测算法的羊肉多分体实时分类检测. 农业机械学报. 2022(03): 400-411 . 百度学术
17. 李春明,杨姗,远松灵. 结合帧差法与窗口搜索的车道线跟踪方法. 太赫兹科学与电子信息学报. 2022(04): 372-377 . 百度学术
18. 韩逸,舒小华,杨明俊. 一种基于改进YOLOv5s的车道线检测方法. 湖南工业大学学报. 2022(03): 51-58 . 百度学术
19. 茅智慧,朱佳利,吴鑫,李君. 基于YOLO的自动驾驶目标检测研究综述. 计算机工程与应用. 2022(15): 68-77 . 百度学术
20. 黄志强,李军,张世义. 基于轻量级神经网络的目标检测研究. 计算机工程与科学. 2022(07): 1265-1272 . 百度学术
21. 江漫,徐艳,吕义付,张乾. 基于计算机视觉的车道线检测技术研究进展. 信息技术与信息化. 2022(11): 21-24 . 百度学术
22. 张琰,梁莉娟. 基于轻量化卷积神经网络的车道线检测. 信息与电脑(理论版). 2022(20): 87-90 . 百度学术
23. 刘丹萍. 基于ROI自适应定位的复杂场景车道线检测. 长春师范大学学报. 2020(10): 66-70 . 百度学术
其他类型引用(30)
-