2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于自适应LASSO先验的稀疏贝叶斯学习算法

白宗龙 师黎明 孙金玮

白宗龙, 师黎明, 孙金玮. 基于自适应LASSO先验的稀疏贝叶斯学习算法. 自动化学报, 2022, 48(5): 1193−1208 doi: 10.16383/j.aas.c210022
引用本文: 白宗龙, 师黎明, 孙金玮. 基于自适应LASSO先验的稀疏贝叶斯学习算法. 自动化学报, 2022, 48(5): 1193−1208 doi: 10.16383/j.aas.c210022
Bai Zong-Long, Shi Li-Ming, Sun Jin-Wei. Sparse Bayesian learning using adaptive LASSO priors. Acta Automatica Sinica, 2022, 48(5): 1193−1208 doi: 10.16383/j.aas.c210022
Citation: Bai Zong-Long, Shi Li-Ming, Sun Jin-Wei. Sparse Bayesian learning using adaptive LASSO priors. Acta Automatica Sinica, 2022, 48(5): 1193−1208 doi: 10.16383/j.aas.c210022

基于自适应LASSO先验的稀疏贝叶斯学习算法

doi: 10.16383/j.aas.c210022
基金项目: 中央高校基本科研业务费项目 (IR2021222) 资助
详细信息
    作者简介:

    白宗龙:哈尔滨工业大学仪器科学与工程学院博士研究生. 主要研究方向为稀疏信号恢复, 麦克风阵列信号处理. E-mail: baizongyao@163.com

    师黎明:奥尔堡大学建筑设计与媒体艺术系博士后. 主要研究方向为稀疏信号处理, 语音信号处理. E-mail: ls@create.aau.dk

    孙金玮:哈尔滨工业大学仪器科学与工程学院教授. 主要研究方向为生物信号处理, 主动噪声控制. 本文通信作者. E-mail: jwsun@hit.edu.cn

Sparse Bayesian Learning Using Adaptive LASSO Priors

Funds: Supported by the Fundamental Research Funds for the Central Universities (IR2021222)
More Information
    Author Bio:

    BAI Zong-Long Ph.D. candidate at the School of Instrument Science and Engineering, Harbin Institute of Technology. His research interest covers sparse signal recovery technology, microphone array signal processing

    SHI Li-Ming Postdoctoral at the Create, Aalborg University. His research interest covers sparse signal recovery technology, speech signal processing

    SUN Jin-Wei Professor at the School of Instrument Science and Engineering, Harbin Institute of Technology. His research interest covers biomedical signal processing, active noise control. Corresponding author of this paper

  • 摘要: 为了提高稀疏信号恢复的准确性, 开展了基于自适应套索算子(Least absolute shrinkage and selection operator, LASSO)先验的稀疏贝叶斯学习(Sparse Bayesian learning, SBL)算法研究. 1) 在稀疏贝叶斯模型构建阶段, 构造了一种新的多层贝叶斯框架, 赋予信号中元素独立的LASSO先验. 该先验比现有稀疏先验更有效地鼓励稀疏并且该模型中所有参数更新存在闭合解. 然后在该多层贝叶斯框架的基础上提出了一种基于自适应LASSO先验的SBL算法. 2) 为降低提出的算法的计算复杂度, 在贝叶斯推断阶段利用空间轮换变元方法对提出的算法进行改进, 避免了矩阵求逆运算, 使参数更新快速高效, 从而提出了一种基于自适应LASSO先验的快速SBL算法. 本文提出的算法的稀疏恢复性能通过实验进行了验证, 分别针对不同大小测量矩阵的稀疏信号恢复以及单快拍波达方向(Direction of arrival, DOA)估计开展了实验. 实验结果表明: 提出基于自适应LASSO先验的SBL算法比现有算法具有更高的稀疏恢复准确度; 提出的快速算法的准确度略低于提出的基于自适应LASSO先验的SBL算法, 但计算复杂度明显降低.
  • 图像修复是指对图像中缺失或损坏区域进行修复重建的过程, 它是计算机视觉技术领域的重点研究内容之一, 其在图像编辑、图像渲染等诸多领域具有重要实用价值[1-8]. 如何在图像破损区域合成与现有上下文区域结构语义一致、内容准确、细节丰富的局部图像信息, 是图像修复方法需要解决的难点问题.

    根据所利用特征级别的不同, 现有图像修复方法可分为两大类: 1)利用低级非语义特征的方法; 2)利用高级语义特征的方法. 其中, 利用低级非语义特征的图像修复方法为传统的图像修复方法, 通常基于扩散或图像块匹配机制将非破损区域的低级特征“粘贴”到破损区域. 此类方法对特定的图像缺损类型有着优秀的修复效果. 例如基于扩散的方法将图像信息从破损区域边界往内部进行传播, 可以有效地修复“抓痕”这样的细小破损. 基于图像块匹配的方法在背景修复方面性能强大, 并广泛应用于商用软件中. 然而, 此类利用低级非语义特征的图像修复方案无法对破损区域的上下文进行深入理解, 即无法获取图像的高级语义特征, 使得此类方法对高度模式化的图像(比如人脸)无法实现很好的修复效果.

    利用高级语义特征的方法, 从大规模数据中学习高级语义特征, 大大提升了修复性能. 其中, 基于生成式对抗网络GANs[9] (Generative adversarial nets)的方法已成为图像修复领域的主流. 基于GANs的方法将图像修复问题转化为基于条件生成对抗网络[10]的条件生成问题. 此类方法通常以破损图像与标定破损区域的掩码作为条件输入, 采用自动编码器网络作为生成器来重建缺损区域的内容, 并结合判别器网络以对抗方式训练, 最终得到完整的图像输出. 为有效地综合利用图像上下文区域的特征, GL[11] (Globally and locally consistent image completion)引入级联扩张卷积, 并将其集成到自动编码器网络的“瓶颈区”. 虽然扩张卷积可以在一定程度上将远距离特征纳入其感受野中, 以达到综合利用远距离特征的目标; 但是扩张卷积有较大的空穴区域, 以规则对称的网格方式采样图像特征, 从而造成远距离重点区域特征被忽略. MC[1] (Multi-column convolutional), CA[2] (Contextual attention)以及CI[12] (Contextual-based inpainting)等方案采用单级上下文注意力方案, 计算图像上下文的语义相似度, 显式地从破损图像的未破损区域中借取有意义的图像表达, 缓解了远距离特征无法有效利用的问题.

    然而, 以上这些方法通常无法为场景复杂图像的缺损区域生成结构合理、细节丰富的内容. 如图1(b)所示, 修复结果图像中明显存在整体性或局部性结构错乱, 此外生成图像还存在语义特征重建不够细致的问题, 即对图像语义(比如人脸图像的眼睛、鼻子等部分)重建比较模糊.

    图 1  当前图像修复方法所存在的结构和细节问题展示
    Fig. 1  The structure and detail issues encountered in current image inpainting method

    图2所示为当前主流图像修复方案通常采用的自动编码器生成网络. 缺损图像经过编码器编码得到浅层特征, 将浅层特征送入“瓶颈区”进行特征提取, 然后再由解码器解码为完整图像. 我们通过研究发现此类自动编码器结构存在非常严重的特征传递受阻问题, 其“瓶颈区”高级特征的截面过大(一般为64×64像素大小). 大截面特征使得扩张卷积与单级注意力特征匹配等方案[2, 11-12]无法充分获取结构与细节特征, 同时阻碍了结构和细节特征在网络中传播, 从而导致了修复结果中出现结构错乱和语义对象模糊等现象.

    图 2  常规自动编码器
    Fig. 2  Conventional autoencoder

    图3所示, 针对特征传递受阻问题, 我们对自动编码器结构中的“瓶颈区”网络部分进行以下两步改进: 第1步, 多级特征压缩. 将编码器与解码器之间的“瓶颈网络”中大小为h×w×c像素的高级特征分别按照0、2、4、8压缩率进行缩放, 构建多级压缩特征, 即F0Fc2Fc4Fc8. 越高压缩率的特征, 其尺度越小. 若按照特征尺度大小对多级压缩特征进行排列, 其结果为F0>Fc2>Fc4>Fc8. 多级压缩特征在特征表达方面是互补的, 越小尺度的特征中有着越小的结构特征空间, 网络更容易从中搜索出有意义的结构表达, 但是越小尺度特征越缺乏细节信息; 与之相反, 越大尺度特征中虽然在结构表达能力上更弱, 却有着越丰富的细节特征, 网络更容易从中搜索出有意义的细节表达. 因此, 大小尺度特征之间的这种互补性为第2步, 即多级注意力传播, 提供了巨大潜力. 多级注意力传播可以充分利用不同压缩特征对不同特征(结构/细节)表达方面的优势. 具体来说, 我们分别对各级压缩特征Fc8Fc4Fc2F0依次执行注意力匹配与替换, 得到注意力特征; 并依据从小尺度到大尺度的顺序对注意力特征进行分级传播. 如图3所示注意力特征A8与压缩特征Fc4结合, 将小尺度注意力特征传播至更高尺度. 其后注意力特征A4再以相同的过程传播至A2A0. 由于前一级注意力特征匹配替换的结果总比后一级有更准确的结构表达; 后一级紧凑的压缩特征总比前一级有更多的细节特征. 因此, 多级注意力的传播方案可以促使网络在多个尺度下既保持图像结构准确, 又不断地丰富细节. 相比当前基于单级注意力的图像修复方案[1-2, 12], 我们的多级方案可以得到更加丰富的深度特征.

    图 3  多级注意力特征传播自动编码器
    Fig. 3  Multi-scale attention propagation driven autoencoder

    同时, 与当前主流方法中由“粗”到“细”的多阶段方案不同, 我们期望在一个阶段内实现细粒度图像重建. 为此, 我们还提出了一种复合粒度判别器网络对图像修复过程进行全局语义约束与非特定局部密集约束. 其中, 全局语义约束由全局判别器实现, 该判别器的输出为一个评价图像整体真实度得分的值; 非特定局部密集约束由局部密集判别器实现, “非特定局部”与“密集”体现在我们的局部密集判别器所执行的是对图像内多个相互重叠的局部区域进行密集地判别. 因此, 这种密集局部判别方式非常适合处理不规则破损情况下的修复任务.

    在包括人脸、建筑立面和自然图像在内的多个数据集上进行的大量实验表明, 本文所提出的多级注意力传播驱动的生成式图像修复方法所生成的图像修复结果比现有方法拥有更高的图像质量.

    综上所述, 本文的贡献如下: 1)提出了一种端到端的图像修复模型, 该模型通过对全分辨率的图像上下文进行编码, 将提取的高级特征压缩为多尺度紧凑特征, 并依据尺度大小顺序驱动紧凑特征进行多级注意力特征传播, 实现了包括结构和细节在内的高级特征在网络中的充分传播. 2)提出了一种复合粒度判别器, 对图像进行全局语义约束与非特定局部密集约束, 使得图像修复在单个前向过程中同时实现高质量的细粒度重建.

    利用图像级低级非语义特征的传统图像修复方法[7, 13-18]可分为两类: 基于扩散的方法和基于图像块的方法. 基于扩散的方法利用距离场等机制将图像信息从相邻像素传播到目标区域, 对于图像的小面积或类抓痕的窄缺损区域有着非常有效的修复效果. 当缺损区域面积过大或纹理变化很大时, 它们通常会生成明显的视觉伪影. 基于图像块的方法首先用于纹理合成, 然后扩展到图像修复. 与基于扩散的方法相比, 基于图像块的方法能够修复场景更复杂的图像. 通常, 基于图像块的方法采用迭代方式, 从同一图像的非缺损区域或外部图像库中采样相似的信息来填补缺损区域. 由于必须计算每个目标-源对的相似度分数, 因此此类方法需要大量的计算和内存开销. PatchMatch[3]是一种典型的基于图像块的方法, 它通过快速最近邻域算法解决了这个问题, 极大地加快了传统算法的速度, 取得了较高质量的修复效果. 基于图像块的方法假设修复区域的纹理可以在图像的其他区域找到, 然而这种假设未必时时成立, 因此限制了该方法的应用范围; 此外, 由于缺乏对图像的高层语义理解, 基于图像块的方法无法为人脸等高度模式化破损图像重建出语义合理的结果. 因此, 无论基于扩散还是基于图像块的传统修复方法, 均不具备感知图像高级语义的能力.

    近年来, 基于深度学习的图像修复方法从大规模数据中学习高级语义表示, 大大提高了修复效果. Context Encoder[19]是最早用于语义图像修复的深度学习方法之一. 它采用自动编码器结构, 通过最大限度地降低像素级重建损失和对抗损失, 实现了对128×128图像中心区域存在的64×64矩形缺损区域的修复. 编码器将带有破损区域的图像映射到高级特征空间, 该特征空间用于解码器重构完整的输出图像. 然而, 由于通道维全连通层的信息瓶颈以及对图像局部区域缺乏约束, 该方法输出图像的重建区域往往出现明显的视觉伪影. Iizuka等[11]通过减少下行采样层的数量, 用一系列膨胀卷积层代替通道全连接层, 在一定程度上解决了上下文编码器的信息瓶颈问题. 同时, Iizuka等[11]还引入了一种局部判别器来提高图像的质量. 然而, 这种方法需要复杂的后处理步骤, 如泊松混合, 以增强孔边界附近的颜色一致性. Yang等[12]和Yu等[2]将粗到细的卷积网络配置方案引入到了图像修复中. 该方案在第1步使用深度卷积神经网络实现对破损区域的粗略估计. 进而, 在第2步的深度卷积网络中, 利用注意力机制或特征块交换操作, 搜索图像上下文中最相似的特征块并替换缺失区域内的特征块, 从而得到细化的输出结果. 然而, 这两种方案在不规则破损区域修复上并没有很好的泛化能力. Wang等[1]提出了一种用于图像修复的多列生成网络, 设计了置信值驱动的重建损失, 并采用了隐式多样马尔科夫随机场(Implicit diversified Markov random field, ID-MRF) 正则化方案来增强局部细节. 它在矩形和不规则掩码上都取得了很好的效果. Liu等[20]在图像修复中引入部分卷积, 对卷积进行了掩盖和重新归一化, 仅利用非破损区域的有效像素, 有效地解决了基于卷积所带来的色差、模糊等伪影问题.

    图4所示, 我们提出的多级注意力传播网络由两部分组成: (a)多级注意力传播生成器G, (b)复合判别器D. 多级注意力传播网络生成器是针对图像修复任务改进的自动编码器, 通过编码过程、多级注意力传播过程与解码过程重建图像的破损区域. 复合判别器网络D通过将G生成的图像判别为“假”来惩罚G, 从而促进G生成真实图. 我们将从破损图像到完整图像的学习过程描述为一个映射函数, 该映射函数将破损图像流形z映射到完整图像流形x. 为了简化符号, 我们还将使用这些符号来表示它们各自网络的功能映射.

    图 4  多级注意力传播网络整体框架
    Fig. 4  The framework of multistage attention propagation network

    图4所示, 我们的多级注意力传播生成器G主要由特征提取网络、多级注意力传播网络、上采样网络等3个子网络构成. 设${I_ {\rm input}} = z$${I_ {\rm {output}}} = $$ G(z)$为多级注意力传播网络生成器的输入和输出. 在浅层特征提取阶段, 提取浅层特征${F_{ - 1}}$:

    $${F_{ - 1}} = Enc({I_{\rm {input}}})$$ (1)

    其中$Enc(\cdot)$为编码器网络. 该网络的编码器首先进行平坦卷积, 然后采用下采样与卷积操作对受损图像进行压缩编码.

    其次, 将提取的有用局部特征${F_{ - 1}}$进行特征细化:

    $$ {F_0} = Bot({F_{ - 1}}) $$ (2)

    其中$Bot(\cdot)$为由4层扩张卷积级联组成的“瓶颈区”网络, 卷积核尺寸为3×3, 膨胀率分别为2、4、8、16.

    接下来, 进行多级注意力传播. 注意力多级传播的第一步是将细化后的高级特征缩放为多级压缩特征:

    $$ {F_{c8}} = {C^8}\left( {{F_0}} \right) $$ (3)
    $$ {F_{c4}} = {C^4}({F_0}) $$ (4)
    $$ {F_{c2}} = {C^2}({F_0}) $$ (5)

    其中${C^n}(\cdot)$为特征缩放操作, n为缩放率, 表示特征尺寸缩放为原来的1/n.

    随后, 对压缩特征进行基于注意力的多级特征匹配与传播, 以小尺度结果引导后续处理:

    $${A_0} = At{t^0}({A_2} \oplus {F_{0}})$$ (6)
    $$ {A_2} = At{t^2}({A_4} \oplus {F_{c2}}) $$ (7)
    $${A_4} = At{t^4}({A_8} \oplus {F_{c4}})$$ (8)
    $${A_8} = At{t^8}({F_{c8}})$$ (9)

    其中$ \oplus $表示通道维叠加, $At{t^l}(\cdot)$为在压缩率为l的特征上进行的匹配替换与传播操作, 更多细节将在第3.2节中给出.

    最终, 经过多级注意力特征配替换与传播后, 采用上采样网络将高级特征映射转化为完整的输出图像:

    $$ {I_{\rm {output}}} = Dec({A_0}) $$ (10)

    其中$Dec(\cdot)$为解码器网络, 对特征${A_0}$进行两次上采样得到完整的重建图像.

    我们采用当前最先进的注意力特征匹配方案[2, 12, 21]. 注意力通常是通过计算缺失区域内外的图像块或特征块之间的相似度来获得的. 因此可以将缺失区域外的相关特征进行转移, 即通过相似度关系将图像上下文的图像块/特征块加权复制到缺失区域内部. 图5所示, $At{t^l}(\cdot)$首先从压缩特征${F_c}$中学习区域亲和力, 即从${F_c}$中提取特征块并计算破损区域内部特征块和外部特征块之间的余弦相似性:

    图 5  注意力特征匹配与传播
    Fig. 5  Flowchart of attention feature matching and propagation
    $$s_{i,j}^l = \left\langle \frac{{p_i^l}}{{{{\left\| {p_i^l} \right\|}_2}}},\frac{{p_j^l}}{{{{\left\| {p_j^l} \right\|}_2}}}\right\rangle $$ (11)

    其中$p_i^l$是提取自${F_c}$破损区域之外第i个特征块, $p_j^l$为从${F_c}$破损区域内提取的特征块. 然后用softmax对相似性进行处理, 得到每个图像块的注意分值:

    $$ a_{j,i}^l = \frac{{\exp (s_{i,j}^l)}}{{\sum\limits_{i = 1}^N {\exp (s_{i,j}^l)} }} $$ (12)

    从高级特征图中获取注意分值后, 采用基于注意分值加权的上下文填充相似特征块中的破损区域:

    $$ p_j^l = \sum\limits_{i = 1}^N {a_{j,i}^l} p_i^l $$ (13)

    其中$p_i^l$为从${F_c}$破损区域外提取的第i个特征块, $p_j^l$为填充缺失区域的第j个特征块. 所有这些运算都可以表示为卷积运算, 用于端到端训练[2]. 我们将每一级$At{t^l}(\cdot)$得到的特征进行上采样, 以引导下一层的注意力的传播. 这样的设计在保证图像结构在多个尺度上一致性的同时, 并逐级丰富图像细节. 值得注意的是, 在我们的方案中最紧凑的压缩特征的大小只有8×8×c, 因此在注意力匹配的过程中无需额外的扩张卷积进行远距离特征借取.

    作为生成网络的补充, 复合判别器网络D用于判断G生成的图像是否足够真实. 在图像修复中, 高质量的图像不仅取决于图像的整体特征, 还取决于图像局部对象的特征. 不同于全局与局部判别器来分别约束全局与局部破损区域, 我们设计了复合判别器来实现全局语义约束与非特定局部密集约束.

    图4(b)所示, 全局语义约束与非特定局部密集约束分别由全局判别器D1与非特定局部密集判别器D2来实现. 全局判别器由卷积层与全连接层构成, 输出为一个评价图像整体真实度得分的值. 非特定局部密集判别器类似Patch-GAN[22]结构, 由5个的步长卷积(内核大小为5, 步长为2)进行叠加构成. 输入由图像和掩模通道组成, 输出为形状为${R^{h \times w \times c}}$的三维特征图, 其中hwc分别表示通道的高度、宽度和数量. 然后, 我们将判别器的损失直接应用到判别器最后一层特征图的每个元素上, 形成针对输入图像局部不同位置的数量为h×w×c的生成对抗网络. 复合判别器网络中全局判别器与非特定局部密集判别器在功能方面为相互补充的. 全局判别器针对全局的约束, 促使生成的图像破损区域与非破损区域在全局层面实现自然过渡; 而非特定局部密集判别器对图像内多个局部区域进行密集的有重叠的判别, 使得图像局部拥有丰富的细节纹理.

    损失函数由三部分组成: 1)对抗损失${L_{\rm {adv}}}$; 2)特征匹配损失${L_{\rm {match}}}$; 3)重构损失${L_{\rm {rec}}}$. 整体的目标函数可以表示为:

    $$ L = {L_{\rm {adv}}} + {\omega _1}{L_{\rm {match}} }+ {\omega _2}{L_{\rm {rec}}} $$ (14)

    其中损失项的平衡参数${\omega _1}{\rm{ = 1}}$${\omega _2}{\rm{ = 1\ 000}}$.

    我们方法采用改进的Wasserstein GAN[23], 对抗损失同时应用于网络G和网络D, 最终影响生成网络G对破损图像的重构过程. 复合判别器网络D的输出值代表生成网络G的输出图像与真实图像的相似程度, 被用来惩罚并促使生成网络G生成更真实图像. 我们的复合判别器网络DD1D2组成. 对抗性损失可以表示为:

    $$ \begin{split} {L_{adv}} =\;& {{E}_{x \sim pdata}}\left[ {\log {D_1}(x)} \right] +\\ & {{E}_{x \sim pdata}}\left[ {\log {D_2}(x)} \right]+ \\ & {{E}_{z \sim pz}}\left[ {\log (1 - {D_1}(G(z)))} \right]+ \\ & {{E}_{z \sim pz}}\left[ {\log (1 - {D_2}(G(z)))} \right] \end{split} $$ (15)

    特征匹配损失${L_{\rm {match}}}$用来比较判别器中间层的激活映射, 迫使生成器生成与真实图像相似的特征表示, 从而稳定训练过程, 这类似于感知损失[24-26]. 不同于感知损失比较从预先训练的VGG网络获取到来自真值图像与输出图像的激活映射, 特征匹配损失比较的是判别器中间层激活映射. 我们定义特征匹配损失${L_{\rm {match}}}$为:

    $$ \begin{split} {L_{\rm {match}}} =\;& \sum\limits_{i = 1}^L {\frac{1}{{{N_i}}}{{\left\| {{D_1}^{(i)}(x) - {D_1}^{(i)}(G(z))} \right\|}_1}} +\\ & \sum\limits_{i = 1}^L {\frac{1}{{{N_i}}}{{\left\| {{D_2}^{(i)}(x) - {D_2}^{(i)}(G(z))} \right\|}_1}} \end{split} $$ (16)

    其中L为判别器的最终卷积层, Ni为第i个激活层的元素个数, ${D_1}^{(i)}$为判别器D1i层的激活映射, ${D_2}^{(i)}$为判别器D2i层的激活映射.

    图像修复不仅要保证修复好的图像具有语义真实感, 而且要对图像进行像素级精确重建. 因此, 对于像素级重建过程, 我们定义了L1重建损失:

    $$ {L_{\rm {rec}}} = {\left\| {x - G(z)} \right\|_1} $$ (17)

    我们使用3个面向于图像修复任务的国际公认通用图像数据集来验证我们的模型(数据集分割如表1所示).

    表 1  3个数据集的训练和测试分割
    Table 1  Training and test splits on three datasets
    数据集训练测试总数
    Facade506100606
    CelebA-HQ28000200030000
    Places280266283285008355128
    下载: 导出CSV 
    | 显示表格

    –Places2[27]数据集: MIT发布的数据集, 包含超过800万张来自365个场景的图像.

    –CELEBA-HQ[28]数据集: 来自CelebA的高质量人脸数据集.

    –Facade[29]数据集: 世界各地不同城市建筑立面集合.

    在Windows 10系统上使用Python开发编译了本文所提出方法的程序代码. 编译测试所用的深度学习平台软件配置为TensorFlow v1.8、CUDNN v7.0和CUDA v9.0; 核心硬件配置为Intel 8700 3.20 GHz的CPU, 12G NVIDIA TITAN XP的GPU. 我们使用Adam优化器对批量大小为6的模型进行训练, beta1与beta2分别设定为0和0.9. 在模型训练初始阶段的学习率设置为1×10−4, 随后再使用1×10−5学习率对模型进行微调. 在模型训练过程中, 训练集中的全部图像均被缩放至256×256大小. 训练好的模型可在CPU及GPU上运行, 不论缺损面积大小, 修复过程在Intel(R) Core(R) CPU上平均运行时间为1.5秒, 在NVIDIA(R) TITAN XP GPU上平均运行时间为0.2秒. 本文中全部实验结果都是从训练好的模型中直接输出的, 未进行任何后期处理.

    我们将与以下经典主流方案进行比较:

    –PatchMatch (PM)[3]: 一种典型的基于图像块的方法, 从周围环境复制类似的图像块.

    –CA[2]: 一个两阶段的图像修复模型, 利用了高层次的上下文注意特征.

    –MC[1]: 为图像修复模型设计了一个置信值驱动的重建损失, 并采用了隐式多样马尔可夫随机场正则化来增强局部细节.

    我们将本文方法与第4.3节中当前经典主流方案分别进行了定性和定量分析, 以证明本文方法的优越性.

    定性比较. 图6图7图8分别展示了我们的方法在Places2、Facade和CelebA-HQ数据集上和对比方法之间的对比结果. 在大多数情况下, 我们的图像修复结果比对比方法在结构重建方面表现得更准确合理. 与其他方法相比, 我们提出的方法在细节纹理重建上表现得更加细致.

    图 6  Places2数据集上的结果比较
    Fig. 6  Comparisons on the test images from Places2 dataset
    图 7  Facade数据集上的结果比较
    Fig. 7  Comparisons on the test image from Facade dataset
    图 8  CelebA-HQ数据集上的结果比较
    Fig. 8  Comparisons on the test image from CelebA-HQ dataset

    定量比较. 我们使用PSNR、SSIM和平均L1损失等指标来客观衡量修复结果的质量. 其中, PSNR和SSIM可以大致反映模型重构原始图像内容的能力, 为人类的视觉感知提供了良好的近似. 平均L1损失直接测量重建图像与真值图像之间的L1距离, 是一个非常实用的图像质量评估指标. 如表2所示, 我们的方法在Places2、CelebA-HQ和Facade数据集中取得了最优的结果, 其中SSIM、PSNR是最高的, 平均L1损失是最低的.

    表 2  CelebA-HQ、Facade和Places2数据集上的定量对比
    Table 2  Quantitative comparisons on CelebA-HQ, Facade and Places2
    数据集 掩码率 PSNR SSIM Mean L1 loss
    CA MC Ours CA MC Ours CA MC Ours
    CelebA-HQ 10% ~ 20% 26.16 29.62 31.35 0.901 0.933 0.945 0.038 0.022 0.018
    20% ~ 30% 23.03 26.53 28.38 0.835 0.888 0.908 0.066 0.038 0.031
    30% ~ 40% 21.62 24.94 26.93 0.787 0.855 0.882 0.087 0.051 0.040
    40% ~ 50% 20.18 23.07 25.46 0.727 0.809 0.849 0.115 0.069 0.052
    Facade 10% ~ 20% 25.93 27.05 28.28 0.897 0.912 0.926 0.039 0.032 0.028
    20% ~ 30% 25.30 24.49 25.36 0.870 0.857 0.871 0.064 0.052 0.047
    30% ~ 40% 22.00 23.21 24.53 0.780 0.815 0.841 0.084 0.068 0.059
    40% ~ 50% 20.84 21.92 23.32 0.729 0.770 0.803 0.106 0.086 0.074
    Places2 10% ~ 20% 22.49 27.34 27.68 0.867 0.910 0.912 0.059 0.031 0.029
    20% ~ 30% 19.95 24.58 25.05 0.786 0.854 0.857 0.097 0.051 0.048
    30% ~ 40% 18.49 22.72 23.41 0.714 0.800 0.805 0.131 0.071 0.066
    40% ~ 50% 17.54 21.42 22.29 0.658 0.755 0.765 0.159 0.089 0.081
    下载: 导出CSV 
    | 显示表格

    我们在建筑立面数据集上分别进行了两个分解实验来验证我们所提出方案的有效性. 为了更清楚地展示实验结果, 所有的实验均为矩形中心掩码情况下的图像修复结果.

    1) 多级注意力传播的有效性

    图9(a)为输入图像, 图9(b)为有注意力传播时的图像修复结果, 图9(c)为无注意力传播时的图像修复结果, 图9(d)为原图. 具体来说, 这次试验参与对比的分别为本文提出方案的结果与本文方案除去多级注意力传播时的结果. 可以看出在多级注意力传播的帮助下本文所提出的方案有着更准确的结构重建能力.

    图 9  有/无注意力传播时的图像修复结果
    Fig. 9  Results with/without attention propagation

    2) 复合判别器网络的有效性

    图10(a)为输入图像, 图10(b)为有复合判别器时的图像修复结果, 图10(c)为无复合判别器时的图像修复结果, 图10(d)为原图. 可以看出在复合粒度判别器的帮助下本文所提出的方案有着更细腻的细节重建能力.

    图 10  有/无复合判别器时的图像修复结果
    Fig. 10  Results with/without compound discriminator

    为验证多级注意力机制以及复合粒度判别器网络的有效性, 我们以平均L1损失为性能参考(平均L1损失越小性能越好), 进行了对比定量研究, 结果如表3所示. 其中, Att0至Att8为注意力组件, Single-D为单全局判别器, Cg-D为本文所提出的复合粒度判别器.

    表 3  组件有效性研究
    Table 3  Effectiveness study on each component
    Att8
    Att4
    Att2
    Att0
    Single-D
    Cg-D
    Mean L1 loss0.0910.0890.0860.0810.0780.074
    下载: 导出CSV 
    | 显示表格

    表3中我们可以看出, 多级注意力传播可以在很大程度上提升网络性能, 同时由于复合粒度判别器对全局语义与非特定局部的密集约束, 网络性能得到了进一步提升.

    为进一步验证我们方法的泛化能力, 我们还通过对所提出模型进行对象移除实际应用研究.

    图11所示, 在示例(a)中, 我们尝试删除人脸图像中的眼镜. 我们可以看到本文方法都成功地删除了眼镜, 并在眼镜区域重建出了清晰自然的人眼. 在示例(b)中, 我们的模型将面部大面积区域移除, 并重建出合理的结果. 值得注意的是, 示例(a)与示例(b)人脸图像均不是正视前方, 而在训练过程中, 整个训练集中的非正视前方图像只占据少数, 这从侧面说明了本文方法具有良好的泛化能力. 更多的成功移除特定对象, 重建出高品质的结果见示例(c)、(d)、(e)、(f).

    图 11  在Facade、CelebA-HQ和Places2数据集上的实例研究结果
    Fig. 11  Case study on Facade, CelebA-HQ and Places2

    本文提出了一种基于层级注意力传播的图像修复网络. 为解决图像修复结果中的结构错乱与语义对象模糊问题, 我们提出将编码器编码的高级语义特征进行多尺度压缩和多层级注意力特征传播, 以实现包括结构和细节在内的高级特征的充分利用. 同时, 为实现在一个阶段内完成粗粒度与细粒度图像的同步重建, 我们提出了一种复合粒度判别器网络对图像修复过程进行全局语义约束与非特定局部密集约束. 大量实验表明, 与经典主流方法相比, 我们提出的方法可以产生更高质量的修复结果.


  • 1 Oracle特性具体包括模型选择相和性和参数估计渐进正态性. 其含义为, 在一些变量不是提前已知的情况下, 如果算法具有Oracle特性, 那么它能够筛选出正确的预测的概率为1而且能够有效而正确地估计非零估计量.
  • 图  1  基于自适应LASSO先验的SBL框架的因子图

    Fig.  1  The factor graph of the proposed SBL framework using adaptive LASSO priors

    图  2  四种算法的稀疏先验代价函数二维等高线图

    Fig.  2  Two dimensional contour plots of cost functions of different sparse priors

    图  3  本算法在不同参数下稀疏先验代价函数二维等高线图

    Fig.  3  Two dimensional contour plots of cost functions of the proposed sparse priors versus hyperparameters

    图  4  一维信号稀疏恢复图

    Fig.  4  Results for one-dimensional signal recovery

    图  5  实值模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  5  RMSE of different algorithms with the real-value signal model versus length of measurements

    图  6  复值模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  6  RMSE of different algorithms with the complex-value signal model versus length of measurements

    图  7  高维实值信号模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  7  RMSE of different algorithms with the high-dimensional real-value signal model versus length of measurements

    图  8  高维复值信号模型下各算法稀疏恢复准确度与测量数的关系

    Fig.  8  RMSE of different algorithms with the high-dimensional complex-value signal model versus length of measurements

    图  9  实值模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  9  RMSE of different algorithms with the real-value signal model versus number of non-zero elements

    图  10  复值模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  10  RMSE of different algorithms with the complex-value signal model versus number of non-zero elements

    图  11  高维实值信号模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  11  RMSE of different algorithms with the high-dimensional real-value signal model versus number of non-zero elements

    图  12  高维复值信号模型下各算法稀疏恢复准确度与稀疏度的关系

    Fig.  12  RMSE of different algorithms with the high-dimensional complex-value signal model versus number of non-zero elements

    图  13  实值模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  13  RMSE of different algorithms versus SNR with the real-value signal model

    图  14  复值模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  14  RMSE of different algorithms versus SNR with the complex-value signal model

    图  15  高维实值信号模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  15  RMSE of different algorithms versus SNR with the high-dimensional real-value signal model

    图  16  高维复值信号模型下各算法稀疏恢复准确度与信噪比的关系

    Fig.  16  RMSE of different algorithms versus SNR with the high-dimensional complex-value signal model

    图  17  DOA估计的准确度与测量数的关系

    Fig.  17  RMSE of DOA estimation using different algorithms versus number of measurements

    图  18  DOA估计准确度与信噪比的关系

    Fig.  18  RMSE of DOA estimation using different algorithms versus SNR

    表  1  各算法单次运行时间

    Table  1  Time consumptions of different algorithms

    实值信号模型 复值信号模型
    算法 用时(s) 算法 用时(s)
    FastLaplace 0.11 FastSBL 1.54
    aLASSO 1.94 GAMP-SBL 0.51
    FastSBL 0.40 MFOCUSS 0.21
    GAMP-SBL 0.07 HSL-SBL 3.16
    FaLASSO-SBL 0.26 FaLASSO-SBL 0.74
    aLASSO-SBL 0.98 aLASSO-SBL 2.33
    下载: 导出CSV

    表  2  恢复高维信号时各算法单次运行时间

    Table  2  Time consumptions of different algorithms when the dimension of signal is high

    实值信号模型 复值信号模型
    算法 用时(s) 算法 用时(s)
    FastLaplace 0.83 FastSBL 6.95
    aLASSO 5.71 GAMP-SBL 2.17
    FastSBL 3.40 MFOCUSS 2.86
    GAMP-SBL 0.69 HSL-SBL 15.73
    FaLASSO-SBL 1.06 FaLASSO-SBL 4.61
    aLASSO-SBL 8.38 aLASSO-SBL 17.41
    下载: 导出CSV

    表  3  单快拍DOA估计实验各算法单次运行时间

    Table  3  Time consumptions of different algorithms for single snapshot DOA estimation

    算法 用时(s) 算法 用时(s)
    SS-ESPRIT 0.37 HSL-SBL 0.85
    SURE-IR 1.64 FaLASSO-SBL 0.47
    L1-SR 0.91 aLASSO-SBL 0.83
    OGSBL 0.69
    下载: 导出CSV
  • [1] Wang L, Zhao L F, Bi G A,, Wan C R, Zhang L R, Zhang H J. Novel wideband DOA estimation based on sparse Bayesian learning with dirichlet process priors. IEEE Transactions on Signal Processing. 2016, 64(2): 275-289. doi: 10.1109/TSP.2015.2481790
    [2] Xenaki A, Boldt J B, Christensen M G. Sound source localization and speech enhancement with sparse Bayesian learning beamforming. The Journal of the Acoustical Society of America. 2018, 143(6): 3912-3921 doi: 10.1121/1.5042222
    [3] Bai Z L, Sun J W, Jensen J R, Christensen M G. Indoor sound source localization based on sparse Bayesian learning and compressed data. In: Proceedings of the 27th European Signal Processing Conference. A Coruna, Spain: IEEE, 2019. 1−5
    [4] Zheng Y L, Fraysse A, Rodet T. Efficient variational Bayesian approximation method based on subspace optimization. IEEE Transactions on Image Processing. 2015, 24(2): 681-693 doi: 10.1109/TIP.2014.2383321
    [5] 兰诚栋, 林宇鹏, 方大锐, 陈建. 多视点稀疏测量的图像绘制方法. 自动化学报, 2021, 47(4): 882-890

    Lan Cheng-Dong, Lin Yu-Peng, Fang Da-Rui, Chen Jian. Multi-view sparse measurement for image-based rendering method. Acta Automatica Sinica. 2021, 47(4): 882-890
    [6] Zhang M C, Yuan X J, He Z Q. Variance state propagation for structured sparse Bayesian learning. IEEE Transactions on Signal Processing. 2020, 68: 2386-2400 doi: 10.1109/TSP.2020.2983827
    [7] Liu S H, Huang Y M, Wu H, Tan C, Jia J B. Efficient multitask structure-aware sparse Bayesian learning for frequency-difference electrical impedance tomography. IEEE Transactions on Industrial Informatics. 2021, 17(1): 463-472 doi: 10.1109/TII.2020.2965202
    [8] 郭俊锋, 李育亮. 基于学习字典的机器人图像稀疏表示方法. 自动化学报, 2020, 46(4): 820-830

    Guo Jun-Feng, Li Yu-Liang. Sparse representation of robot image based on dictionary learning algorithm. Acta Automatica Sinica. 2020, 46(4): 820-830
    [9] 张芳, 王萌, 肖志涛, 吴骏, 耿磊, 童军, 王雯. 基于全卷积神经网络与低秩稀疏分解的显著性检测. 自动化学报, 2019, 45(11): 2148-2158

    Zhang Fang, Wang Meng, Xiao Zhi-Tao, Wu Jun, Geng Lei, Tong Jun, Wang Wen. Saliency detection via full convolution neural network and low rank sparse decomposition. Acta Automatica Sinica. 2019, 45(11): 2148-2158
    [10] Ojeda A, Kenneth K D, Mullen T. Fast and robust block-sparse Bayesian learning for EEG source imaging. NeuroImage. 2018, 174: 449-462 doi: 10.1016/j.neuroimage.2018.03.048
    [11] Jiao Y, Zhang Y, Chen X, Yin E W, Jin J, Wang X Y, Cichocki A. Sparse group representation model for motor imagery EEG classification. IEEE Journal of Biomedical and Health Informatics. 2019, 23(2): 631-641 doi: 10.1109/JBHI.2018.2832538
    [12] Niu H Q, Gerstoft P, Ozanich E, Li Z L, Zhang R H, Gong Z X, Wang H B. Block sparse Bayesian learning for broadband mode extraction in shallow water from a vertical array. The Journal of the Acoustical Society of America 2020, 147(6): 3729-3739 doi: 10.1121/10.0001322
    [13] Zheng R, Xu X, Ye Z F, Dai J S. Robust sparse Bayesian learning for DOA estimation in impulsive noise environments. Signal Processing. 2020, 171(107500): 1-6
    [14] 曹娜, 王永利, 孙建红, 赵宁, 宫小泽. 基于字典学习和拓展联合动态稀疏表示的SAR目标识别. 自动化学报, 2020, 46(12): 2638-2646

    CAO Na, WANG Yong-Li, SUN Jian-Hong, ZHAO Ning, GONG Xiao-Ze. SAR target recognition based on dictionary learning and extended joint dynamic sparse representation. Acta Automatica Sinica. 2020, 46(12): 2638-2646
    [15] Yang Z, Li J, Stoica P, Xie L H. Sparse methods for direction-of-arrival estimation. Academic Press Library in Signal Processing. London: Academic Press, 2018. 509-581
    [16] Tipping M E, Smola A. Sparse Bayesian learning and the relevance vector machine. The Journal of Machine Learning Research. 2001, 59(1): 211-244
    [17] Babacan S D, Molina R, Katsaggelos A K. Bayesian compressive sensing using laplace priors. IEEE Transactions on Image Processing. 2010, 19(1): 53-63 doi: 10.1109/TIP.2009.2032894
    [18] Zhao L F, Wang L, Bi G A, Yang L. An autofocus technique for high-resolution inverse synthetic aperture radar imagery. IEEE Transactions on Geoscience and Remote Sensing. 2014, 52(10): 6392-6403 doi: 10.1109/TGRS.2013.2296497
    [19] Yang J, Yang Y. Sparse Bayesian DOA estimation using hierarchical synthesis lasso priors for off-grid signals. IEEE Transactions on Signal Processing. 2020, 68: 872-884 doi: 10.1109/TSP.2020.2967665
    [20] Zou H. The adaptive lasso and its oracle properties. Journal of the American Statistical Association. 2006, 101(476): 1418-1429 doi: 10.1198/016214506000000735
    [21] Tipping M E, Faul A C. Fast marginal likelihood maximisation for sparse Bayesian models. In: Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics. Florida, USA: Springer, 2003. 3−6
    [22] Duan H, Yang L, Fang J, Li H. Fast inverse-free sparse Bayesian learning via relaxed evidence lower bound maximization. IEEE Signal Processing Letters. 2017, 24(6): 774-778 doi: 10.1109/LSP.2017.2692217
    [23] Shoukairi M A, Rao B D. Sparse Bayesian learning using approximate message passing. In: Proceedings of the 48th Asilomar Conference on Signals, Systems and Computers. Pacific Grove, USA: IEEE, 2014. 1957−1961
    [24] Shoukairi M A, Schniter P, Rao B D. A gamp-based low complexity sparse Bayesian learning algorithm. IEEE Transactions on Signal Processing. 2018, 66(2): 294-308 doi: 10.1109/TSP.2017.2764855
    [25] Thomas C K, Slock D. Save - space alternating variational estimation for sparse Bayesian learning. In: Proceedings of IEEE Data Science Workshop. Lausanne, Switzerland: IEEE, 2018. 11−15
    [26] Worley B. Scalable mean-field sparse Bayesian learning. IEEE Transactions on Signal Processing. 2019, 67(24): 6314-6326 doi: 10.1109/TSP.2019.2954504
    [27] Candes E J, Romberg J, Tao T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information. IEEE Transactions on Information Theory. 2006, 52(2): 489-509 doi: 10.1109/TIT.2005.862083
    [28] Wipf D P, Rao B D, Nagarajan S. Latent variable Bayesian models for promoting sparsity. IEEE Transactions on Information Theory. 2011, 57(9): 6236-6255 doi: 10.1109/TIT.2011.2162174
    [29] Figueiredo M A T, Nowak R D, Wright S J. Gradient projection for sparse reconstruction: Application to compressed sensing and other inverse problems. IEEE Journal of Selected Topics in Signal Processing. 2007, 1(4): 586-597 doi: 10.1109/JSTSP.2007.910281
    [30] Xenaki A, Gerstoft P, Mosegaard K. Compressive beamforming. Journal of the Acoustical Society of America. 2014, 136(1): 260-271 doi: 10.1121/1.4883360
    [31] Bishop C M. Pattern recognition and machine learning. New York, USA: Springer-Verlag, 2006. 152−169
    [32] Tzikas D G, Likas A C, Galatsanos N P. The variational approximation for Bayesian inference. IEEE Signal Processing Magazine. 2008, 25(6): 131-146 doi: 10.1109/MSP.2008.929620
    [33] Higham N J. Accuracy and stability of numerical algorithms. Society for Industrial and Applied Mathematics. Philadelphia, USA: Springer, 2002. 67−93
    [34] Pati Y C, Rezaiifar R, Krishnaprasad P S. Orthogonal matching pursuit: recursive function approximation with applications to wavelet decomposition. In: Proceesdings of the Conference on Signals, Systems and Computers. Pacific Grove, USA: IEEE, 2002. 1−5
    [35] Cotter S F, Rao B D, Engan K, Delgado K K. Sparse solutions to linear inverse problems with multiple measurement vectors. IEEE Transactions on Signal Processing. 2005, 53(7): 2477-2488 doi: 10.1109/TSP.2005.849172
    [36] Thakre A, Haardt M, Giridhar K. Single snapshot spatial smoothing with improved effective array aperture. IEEE Signal Processing Letters. 2009, 16(6): 505-508 doi: 10.1109/LSP.2009.2017573
    [37] Raj A G, Mcclellan J H. Single snapshot super-resolution DOA estimation for arbitrary array geometries. IEEE Signal Processing Letters. 2019, 26(1): 119-123 doi: 10.1109/LSP.2018.2881927
    [38] Fang J, Wang F, Shen Y, Li H, Blum R S. Super-resolution compressed sensing for line spectral estimation: An iterative reweighted approach. IEEE Transactions on Signal Processing. 2016, 64(18): 4649-4662 doi: 10.1109/TSP.2016.2572041
    [39] Yang Z, Xie L H, Zhang C. Off-grid direction of arrival estimation using sparse Bayesian inference. IEEE Transactions on Signal Processing. 2013, 61(1): 38-43 doi: 10.1109/TSP.2012.2222378
  • 期刊类型引用(3)

    1. 郑文康,魏志晴,白艳萍,黄嘉俊,禹秀梅,谭秀辉,王鹏. 基于可分离替代函数算法的DOA估计方法. 陕西科技大学学报. 2024(01): 197-205 . 百度学术
    2. 罗军,张顺生. 联合自适应LASSO与块稀疏贝叶斯直接定位方法. 雷达科学与技术. 2024(03): 265-274 . 百度学术
    3. 杨静,韩丽东. 基于改进SSD算法的城市轨道交通多通道闸机控制研究. 计算机测量与控制. 2023(12): 160-166 . 百度学术

    其他类型引用(6)

  • 加载中
  • 图(18) / 表(3)
    计量
    • 文章访问数:  1984
    • HTML全文浏览量:  1100
    • PDF下载量:  402
    • 被引次数: 9
    出版历程
    • 收稿日期:  2021-01-12
    • 录用日期:  2021-04-29
    • 网络出版日期:  2021-06-16
    • 刊出日期:  2022-05-13

    目录

    /

    返回文章
    返回