Time Series Forecasting Based on Seasonality Modeling and Its Application to Electricity Price Forecasting
-
摘要: 时间序列数据广泛存在于人类的生产生活中, 通常具有复杂的非线性动态和一定的周期性. 与传统的时间序列分析方法相比, 基于深度学习的方法更能捕捉数据的深层特性, 对具有复杂非线性的时间序列有较好的建模效果. 为了在神经网络中显式地建模时间序列数据的周期性和趋势性, 本文在循环神经网络的基础上引入了周期损失和趋势损失, 建立了基于周期性建模和多任务学习的时间序列预测模型. 将模型应用到欧洲能源交易所法国市场的能源市场价格预测中, 结果表明周期损失和趋势损失能够提高神经网络的泛化能力, 并提高预测时间序列趋势的精度.Abstract: Time series data exist widely in human production and life. The real time series data often contain complex nonlinear dynamics and seasonality. Compared with traditional time series analysis methods, deep learning based methods have good modeling effect for the time series with complex nonlinearities but fail to model the seasonality and trend of time series. In order to model the seasonality and trending explicitly in neural networks, this paper introduces seasonal loss and trend loss into recurrent neural networks (RNNs), establishing the time series prediction model based on seasonality modeling and multi-task learning. The suggested method is then applied to the electricity price forecasting on EPEX (European Power Exchange) France market. The experiment results show that seasonal loss and trend loss can improve the generation ability of neural networks and the performance of sequence trend forecasting.
-
图像修复是指对图像中缺失或损坏区域进行修复重建的过程, 它是计算机视觉技术领域的重点研究内容之一, 其在图像编辑、图像渲染等诸多领域具有重要实用价值[1-8]. 如何在图像破损区域合成与现有上下文区域结构语义一致、内容准确、细节丰富的局部图像信息, 是图像修复方法需要解决的难点问题.
根据所利用特征级别的不同, 现有图像修复方法可分为两大类: 1)利用低级非语义特征的方法; 2)利用高级语义特征的方法. 其中, 利用低级非语义特征的图像修复方法为传统的图像修复方法, 通常基于扩散或图像块匹配机制将非破损区域的低级特征“粘贴”到破损区域. 此类方法对特定的图像缺损类型有着优秀的修复效果. 例如基于扩散的方法将图像信息从破损区域边界往内部进行传播, 可以有效地修复“抓痕”这样的细小破损. 基于图像块匹配的方法在背景修复方面性能强大, 并广泛应用于商用软件中. 然而, 此类利用低级非语义特征的图像修复方案无法对破损区域的上下文进行深入理解, 即无法获取图像的高级语义特征, 使得此类方法对高度模式化的图像(比如人脸)无法实现很好的修复效果.
利用高级语义特征的方法, 从大规模数据中学习高级语义特征, 大大提升了修复性能. 其中, 基于生成式对抗网络GANs[9] (Generative adversarial nets)的方法已成为图像修复领域的主流. 基于GANs的方法将图像修复问题转化为基于条件生成对抗网络[10]的条件生成问题. 此类方法通常以破损图像与标定破损区域的掩码作为条件输入, 采用自动编码器网络作为生成器来重建缺损区域的内容, 并结合判别器网络以对抗方式训练, 最终得到完整的图像输出. 为有效地综合利用图像上下文区域的特征, GL[11] (Globally and locally consistent image completion)引入级联扩张卷积, 并将其集成到自动编码器网络的“瓶颈区”. 虽然扩张卷积可以在一定程度上将远距离特征纳入其感受野中, 以达到综合利用远距离特征的目标; 但是扩张卷积有较大的空穴区域, 以规则对称的网格方式采样图像特征, 从而造成远距离重点区域特征被忽略. MC[1] (Multi-column convolutional), CA[2] (Contextual attention)以及CI[12] (Contextual-based inpainting)等方案采用单级上下文注意力方案, 计算图像上下文的语义相似度, 显式地从破损图像的未破损区域中借取有意义的图像表达, 缓解了远距离特征无法有效利用的问题.
然而, 以上这些方法通常无法为场景复杂图像的缺损区域生成结构合理、细节丰富的内容. 如图1(b)所示, 修复结果图像中明显存在整体性或局部性结构错乱, 此外生成图像还存在语义特征重建不够细致的问题, 即对图像语义(比如人脸图像的眼睛、鼻子等部分)重建比较模糊.
如图2所示为当前主流图像修复方案通常采用的自动编码器生成网络. 缺损图像经过编码器编码得到浅层特征, 将浅层特征送入“瓶颈区”进行特征提取, 然后再由解码器解码为完整图像. 我们通过研究发现此类自动编码器结构存在非常严重的特征传递受阻问题, 其“瓶颈区”高级特征的截面过大(一般为64×64像素大小). 大截面特征使得扩张卷积与单级注意力特征匹配等方案[2, 11-12]无法充分获取结构与细节特征, 同时阻碍了结构和细节特征在网络中传播, 从而导致了修复结果中出现结构错乱和语义对象模糊等现象.
如图3所示, 针对特征传递受阻问题, 我们对自动编码器结构中的“瓶颈区”网络部分进行以下两步改进: 第1步, 多级特征压缩. 将编码器与解码器之间的“瓶颈网络”中大小为h×w×c像素的高级特征分别按照0、2、4、8压缩率进行缩放, 构建多级压缩特征, 即F0、Fc2、Fc4和Fc8. 越高压缩率的特征, 其尺度越小. 若按照特征尺度大小对多级压缩特征进行排列, 其结果为F0>Fc2>Fc4>Fc8. 多级压缩特征在特征表达方面是互补的, 越小尺度的特征中有着越小的结构特征空间, 网络更容易从中搜索出有意义的结构表达, 但是越小尺度特征越缺乏细节信息; 与之相反, 越大尺度特征中虽然在结构表达能力上更弱, 却有着越丰富的细节特征, 网络更容易从中搜索出有意义的细节表达. 因此, 大小尺度特征之间的这种互补性为第2步, 即多级注意力传播, 提供了巨大潜力. 多级注意力传播可以充分利用不同压缩特征对不同特征(结构/细节)表达方面的优势. 具体来说, 我们分别对各级压缩特征Fc8、Fc4、Fc2和F0依次执行注意力匹配与替换, 得到注意力特征; 并依据从小尺度到大尺度的顺序对注意力特征进行分级传播. 如图3所示注意力特征A8与压缩特征Fc4结合, 将小尺度注意力特征传播至更高尺度. 其后注意力特征A4再以相同的过程传播至A2和A0. 由于前一级注意力特征匹配替换的结果总比后一级有更准确的结构表达; 后一级紧凑的压缩特征总比前一级有更多的细节特征. 因此, 多级注意力的传播方案可以促使网络在多个尺度下既保持图像结构准确, 又不断地丰富细节. 相比当前基于单级注意力的图像修复方案[1-2, 12], 我们的多级方案可以得到更加丰富的深度特征.
同时, 与当前主流方法中由“粗”到“细”的多阶段方案不同, 我们期望在一个阶段内实现细粒度图像重建. 为此, 我们还提出了一种复合粒度判别器网络对图像修复过程进行全局语义约束与非特定局部密集约束. 其中, 全局语义约束由全局判别器实现, 该判别器的输出为一个评价图像整体真实度得分的值; 非特定局部密集约束由局部密集判别器实现, “非特定局部”与“密集”体现在我们的局部密集判别器所执行的是对图像内多个相互重叠的局部区域进行密集地判别. 因此, 这种密集局部判别方式非常适合处理不规则破损情况下的修复任务.
在包括人脸、建筑立面和自然图像在内的多个数据集上进行的大量实验表明, 本文所提出的多级注意力传播驱动的生成式图像修复方法所生成的图像修复结果比现有方法拥有更高的图像质量.
综上所述, 本文的贡献如下: 1)提出了一种端到端的图像修复模型, 该模型通过对全分辨率的图像上下文进行编码, 将提取的高级特征压缩为多尺度紧凑特征, 并依据尺度大小顺序驱动紧凑特征进行多级注意力特征传播, 实现了包括结构和细节在内的高级特征在网络中的充分传播. 2)提出了一种复合粒度判别器, 对图像进行全局语义约束与非特定局部密集约束, 使得图像修复在单个前向过程中同时实现高质量的细粒度重建.
1. 相关工作概述
1.1 传统图像修复方法
利用图像级低级非语义特征的传统图像修复方法[7, 13-18]可分为两类: 基于扩散的方法和基于图像块的方法. 基于扩散的方法利用距离场等机制将图像信息从相邻像素传播到目标区域, 对于图像的小面积或类抓痕的窄缺损区域有着非常有效的修复效果. 当缺损区域面积过大或纹理变化很大时, 它们通常会生成明显的视觉伪影. 基于图像块的方法首先用于纹理合成, 然后扩展到图像修复. 与基于扩散的方法相比, 基于图像块的方法能够修复场景更复杂的图像. 通常, 基于图像块的方法采用迭代方式, 从同一图像的非缺损区域或外部图像库中采样相似的信息来填补缺损区域. 由于必须计算每个目标-源对的相似度分数, 因此此类方法需要大量的计算和内存开销. PatchMatch[3]是一种典型的基于图像块的方法, 它通过快速最近邻域算法解决了这个问题, 极大地加快了传统算法的速度, 取得了较高质量的修复效果. 基于图像块的方法假设修复区域的纹理可以在图像的其他区域找到, 然而这种假设未必时时成立, 因此限制了该方法的应用范围; 此外, 由于缺乏对图像的高层语义理解, 基于图像块的方法无法为人脸等高度模式化破损图像重建出语义合理的结果. 因此, 无论基于扩散还是基于图像块的传统修复方法, 均不具备感知图像高级语义的能力.
1.2 基于深度学习的图像修复方法
近年来, 基于深度学习的图像修复方法从大规模数据中学习高级语义表示, 大大提高了修复效果. Context Encoder[19]是最早用于语义图像修复的深度学习方法之一. 它采用自动编码器结构, 通过最大限度地降低像素级重建损失和对抗损失, 实现了对128×128图像中心区域存在的64×64矩形缺损区域的修复. 编码器将带有破损区域的图像映射到高级特征空间, 该特征空间用于解码器重构完整的输出图像. 然而, 由于通道维全连通层的信息瓶颈以及对图像局部区域缺乏约束, 该方法输出图像的重建区域往往出现明显的视觉伪影. Iizuka等[11]通过减少下行采样层的数量, 用一系列膨胀卷积层代替通道全连接层, 在一定程度上解决了上下文编码器的信息瓶颈问题. 同时, Iizuka等[11]还引入了一种局部判别器来提高图像的质量. 然而, 这种方法需要复杂的后处理步骤, 如泊松混合, 以增强孔边界附近的颜色一致性. Yang等[12]和Yu等[2]将粗到细的卷积网络配置方案引入到了图像修复中. 该方案在第1步使用深度卷积神经网络实现对破损区域的粗略估计. 进而, 在第2步的深度卷积网络中, 利用注意力机制或特征块交换操作, 搜索图像上下文中最相似的特征块并替换缺失区域内的特征块, 从而得到细化的输出结果. 然而, 这两种方案在不规则破损区域修复上并没有很好的泛化能力. Wang等[1]提出了一种用于图像修复的多列生成网络, 设计了置信值驱动的重建损失, 并采用了隐式多样马尔科夫随机场(Implicit diversified Markov random field, ID-MRF) 正则化方案来增强局部细节. 它在矩形和不规则掩码上都取得了很好的效果. Liu等[20]在图像修复中引入部分卷积, 对卷积进行了掩盖和重新归一化, 仅利用非破损区域的有效像素, 有效地解决了基于卷积所带来的色差、模糊等伪影问题.
2. 多级注意力传播网络
如图4所示, 我们提出的多级注意力传播网络由两部分组成: (a)多级注意力传播生成器G, (b)复合判别器D. 多级注意力传播网络生成器是针对图像修复任务改进的自动编码器, 通过编码过程、多级注意力传播过程与解码过程重建图像的破损区域. 复合判别器网络D通过将G生成的图像判别为“假”来惩罚G, 从而促进G生成真实图. 我们将从破损图像到完整图像的学习过程描述为一个映射函数, 该映射函数将破损图像流形z映射到完整图像流形x. 为了简化符号, 我们还将使用这些符号来表示它们各自网络的功能映射.
2.1 多级注意力传播网络生成器
如图4所示, 我们的多级注意力传播生成器G主要由特征提取网络、多级注意力传播网络、上采样网络等3个子网络构成. 设
${I_ {\rm input}} = z$ 和${I_ {\rm {output}}} = $ $ G(z)$ 为多级注意力传播网络生成器的输入和输出. 在浅层特征提取阶段, 提取浅层特征${F_{ - 1}}$ :$${F_{ - 1}} = Enc({I_{\rm {input}}})$$ (1) 其中
$Enc(\cdot)$ 为编码器网络. 该网络的编码器首先进行平坦卷积, 然后采用下采样与卷积操作对受损图像进行压缩编码.其次, 将提取的有用局部特征
${F_{ - 1}}$ 进行特征细化:$$ {F_0} = Bot({F_{ - 1}}) $$ (2) 其中
$Bot(\cdot)$ 为由4层扩张卷积级联组成的“瓶颈区”网络, 卷积核尺寸为3×3, 膨胀率分别为2、4、8、16.接下来, 进行多级注意力传播. 注意力多级传播的第一步是将细化后的高级特征缩放为多级压缩特征:
$$ {F_{c8}} = {C^8}\left( {{F_0}} \right) $$ (3) $$ {F_{c4}} = {C^4}({F_0}) $$ (4) $$ {F_{c2}} = {C^2}({F_0}) $$ (5) 其中
${C^n}(\cdot)$ 为特征缩放操作, n为缩放率, 表示特征尺寸缩放为原来的1/n.随后, 对压缩特征进行基于注意力的多级特征匹配与传播, 以小尺度结果引导后续处理:
$${A_0} = At{t^0}({A_2} \oplus {F_{0}})$$ (6) $$ {A_2} = At{t^2}({A_4} \oplus {F_{c2}}) $$ (7) $${A_4} = At{t^4}({A_8} \oplus {F_{c4}})$$ (8) $${A_8} = At{t^8}({F_{c8}})$$ (9) 其中
$ \oplus $ 表示通道维叠加,$At{t^l}(\cdot)$ 为在压缩率为l的特征上进行的匹配替换与传播操作, 更多细节将在第3.2节中给出.最终, 经过多级注意力特征配替换与传播后, 采用上采样网络将高级特征映射转化为完整的输出图像:
$$ {I_{\rm {output}}} = Dec({A_0}) $$ (10) 其中
$Dec(\cdot)$ 为解码器网络, 对特征${A_0}$ 进行两次上采样得到完整的重建图像.2.2 基于注意力的特征匹配与传播
我们采用当前最先进的注意力特征匹配方案[2, 12, 21]. 注意力通常是通过计算缺失区域内外的图像块或特征块之间的相似度来获得的. 因此可以将缺失区域外的相关特征进行转移, 即通过相似度关系将图像上下文的图像块/特征块加权复制到缺失区域内部. 图5所示,
$At{t^l}(\cdot)$ 首先从压缩特征${F_c}$ 中学习区域亲和力, 即从${F_c}$ 中提取特征块并计算破损区域内部特征块和外部特征块之间的余弦相似性:$$s_{i,j}^l = \left\langle \frac{{p_i^l}}{{{{\left\| {p_i^l} \right\|}_2}}},\frac{{p_j^l}}{{{{\left\| {p_j^l} \right\|}_2}}}\right\rangle $$ (11) 其中
$p_i^l$ 是提取自${F_c}$ 破损区域之外第i个特征块,$p_j^l$ 为从${F_c}$ 破损区域内提取的特征块. 然后用softmax对相似性进行处理, 得到每个图像块的注意分值:$$ a_{j,i}^l = \frac{{\exp (s_{i,j}^l)}}{{\sum\limits_{i = 1}^N {\exp (s_{i,j}^l)} }} $$ (12) 从高级特征图中获取注意分值后, 采用基于注意分值加权的上下文填充相似特征块中的破损区域:
$$ p_j^l = \sum\limits_{i = 1}^N {a_{j,i}^l} p_i^l $$ (13) 其中
$p_i^l$ 为从${F_c}$ 破损区域外提取的第i个特征块,$p_j^l$ 为填充缺失区域的第j个特征块. 所有这些运算都可以表示为卷积运算, 用于端到端训练[2]. 我们将每一级$At{t^l}(\cdot)$ 得到的特征进行上采样, 以引导下一层的注意力的传播. 这样的设计在保证图像结构在多个尺度上一致性的同时, 并逐级丰富图像细节. 值得注意的是, 在我们的方案中最紧凑的压缩特征的大小只有8×8×c, 因此在注意力匹配的过程中无需额外的扩张卷积进行远距离特征借取.2.3 复合判别器网络
作为生成网络的补充, 复合判别器网络D用于判断G生成的图像是否足够真实. 在图像修复中, 高质量的图像不仅取决于图像的整体特征, 还取决于图像局部对象的特征. 不同于全局与局部判别器来分别约束全局与局部破损区域, 我们设计了复合判别器来实现全局语义约束与非特定局部密集约束.
如图4(b)所示, 全局语义约束与非特定局部密集约束分别由全局判别器D1与非特定局部密集判别器D2来实现. 全局判别器由卷积层与全连接层构成, 输出为一个评价图像整体真实度得分的值. 非特定局部密集判别器类似Patch-GAN[22]结构, 由5个的步长卷积(内核大小为5, 步长为2)进行叠加构成. 输入由图像和掩模通道组成, 输出为形状为
${R^{h \times w \times c}}$ 的三维特征图, 其中h、w、c分别表示通道的高度、宽度和数量. 然后, 我们将判别器的损失直接应用到判别器最后一层特征图的每个元素上, 形成针对输入图像局部不同位置的数量为h×w×c的生成对抗网络. 复合判别器网络中全局判别器与非特定局部密集判别器在功能方面为相互补充的. 全局判别器针对全局的约束, 促使生成的图像破损区域与非破损区域在全局层面实现自然过渡; 而非特定局部密集判别器对图像内多个局部区域进行密集的有重叠的判别, 使得图像局部拥有丰富的细节纹理.3. 损失函数
损失函数由三部分组成: 1)对抗损失
${L_{\rm {adv}}}$ ; 2)特征匹配损失${L_{\rm {match}}}$ ; 3)重构损失${L_{\rm {rec}}}$ . 整体的目标函数可以表示为:$$ L = {L_{\rm {adv}}} + {\omega _1}{L_{\rm {match}} }+ {\omega _2}{L_{\rm {rec}}} $$ (14) 其中损失项的平衡参数
${\omega _1}{\rm{ = 1}}$ 、${\omega _2}{\rm{ = 1\ 000}}$ .3.1 生成对抗损失
${L_{\rm {adv}}}$ 我们方法采用改进的Wasserstein GAN[23], 对抗损失同时应用于网络G和网络D, 最终影响生成网络G对破损图像的重构过程. 复合判别器网络D的输出值代表生成网络G的输出图像与真实图像的相似程度, 被用来惩罚并促使生成网络G生成更真实图像. 我们的复合判别器网络D由D1和D2组成. 对抗性损失可以表示为:
$$ \begin{split} {L_{adv}} =\;& {{E}_{x \sim pdata}}\left[ {\log {D_1}(x)} \right] +\\ & {{E}_{x \sim pdata}}\left[ {\log {D_2}(x)} \right]+ \\ & {{E}_{z \sim pz}}\left[ {\log (1 - {D_1}(G(z)))} \right]+ \\ & {{E}_{z \sim pz}}\left[ {\log (1 - {D_2}(G(z)))} \right] \end{split} $$ (15) 3.2 特征匹配损失
${L_{\rm {match}}}$ 特征匹配损失
${L_{\rm {match}}}$ 用来比较判别器中间层的激活映射, 迫使生成器生成与真实图像相似的特征表示, 从而稳定训练过程, 这类似于感知损失[24-26]. 不同于感知损失比较从预先训练的VGG网络获取到来自真值图像与输出图像的激活映射, 特征匹配损失比较的是判别器中间层激活映射. 我们定义特征匹配损失${L_{\rm {match}}}$ 为:$$ \begin{split} {L_{\rm {match}}} =\;& \sum\limits_{i = 1}^L {\frac{1}{{{N_i}}}{{\left\| {{D_1}^{(i)}(x) - {D_1}^{(i)}(G(z))} \right\|}_1}} +\\ & \sum\limits_{i = 1}^L {\frac{1}{{{N_i}}}{{\left\| {{D_2}^{(i)}(x) - {D_2}^{(i)}(G(z))} \right\|}_1}} \end{split} $$ (16) 其中L为判别器的最终卷积层, Ni为第i个激活层的元素个数,
${D_1}^{(i)}$ 为判别器D1第i层的激活映射,${D_2}^{(i)}$ 为判别器D2第i层的激活映射.3.3 重建损失
${L_{\rm {rec}}}$ 图像修复不仅要保证修复好的图像具有语义真实感, 而且要对图像进行像素级精确重建. 因此, 对于像素级重建过程, 我们定义了L1重建损失:
$$ {L_{\rm {rec}}} = {\left\| {x - G(z)} \right\|_1} $$ (17) 4. 实验
4.1 数据集
我们使用3个面向于图像修复任务的国际公认通用图像数据集来验证我们的模型(数据集分割如表1所示).
表 1 3个数据集的训练和测试分割Table 1 Training and test splits on three datasets数据集 训练 测试 总数 Facade 506 100 606 CelebA-HQ 28000 2000 30000 Places2 8026628 328500 8355128 –Places2[27]数据集: MIT发布的数据集, 包含超过800万张来自365个场景的图像.
–CELEBA-HQ[28]数据集: 来自CelebA的高质量人脸数据集.
–Facade[29]数据集: 世界各地不同城市建筑立面集合.
4.2 实验设置
在Windows 10系统上使用Python开发编译了本文所提出方法的程序代码. 编译测试所用的深度学习平台软件配置为TensorFlow v1.8、CUDNN v7.0和CUDA v9.0; 核心硬件配置为Intel 8700 3.20 GHz的CPU, 12G NVIDIA TITAN XP的GPU. 我们使用Adam优化器对批量大小为6的模型进行训练, beta1与beta2分别设定为0和0.9. 在模型训练初始阶段的学习率设置为1×10−4, 随后再使用1×10−5学习率对模型进行微调. 在模型训练过程中, 训练集中的全部图像均被缩放至256×256大小. 训练好的模型可在CPU及GPU上运行, 不论缺损面积大小, 修复过程在Intel(R) Core(R) CPU上平均运行时间为1.5秒, 在NVIDIA(R) TITAN XP GPU上平均运行时间为0.2秒. 本文中全部实验结果都是从训练好的模型中直接输出的, 未进行任何后期处理.
4.3 对比模型
我们将与以下经典主流方案进行比较:
–PatchMatch (PM)[3]: 一种典型的基于图像块的方法, 从周围环境复制类似的图像块.
–CA[2]: 一个两阶段的图像修复模型, 利用了高层次的上下文注意特征.
–MC[1]: 为图像修复模型设计了一个置信值驱动的重建损失, 并采用了隐式多样马尔可夫随机场正则化来增强局部细节.
5. 结果与验证
5.1 实验结果
我们将本文方法与第4.3节中当前经典主流方案分别进行了定性和定量分析, 以证明本文方法的优越性.
定性比较. 图6、图7和图8分别展示了我们的方法在Places2、Facade和CelebA-HQ数据集上和对比方法之间的对比结果. 在大多数情况下, 我们的图像修复结果比对比方法在结构重建方面表现得更准确合理. 与其他方法相比, 我们提出的方法在细节纹理重建上表现得更加细致.
定量比较. 我们使用PSNR、SSIM和平均L1损失等指标来客观衡量修复结果的质量. 其中, PSNR和SSIM可以大致反映模型重构原始图像内容的能力, 为人类的视觉感知提供了良好的近似. 平均L1损失直接测量重建图像与真值图像之间的L1距离, 是一个非常实用的图像质量评估指标. 如表2所示, 我们的方法在Places2、CelebA-HQ和Facade数据集中取得了最优的结果, 其中SSIM、PSNR是最高的, 平均L1损失是最低的.
表 2 CelebA-HQ、Facade和Places2数据集上的定量对比Table 2 Quantitative comparisons on CelebA-HQ, Facade and Places2数据集 掩码率 PSNR SSIM Mean L1 loss CA MC Ours CA MC Ours CA MC Ours CelebA-HQ 10% ~ 20% 26.16 29.62 31.35 0.901 0.933 0.945 0.038 0.022 0.018 20% ~ 30% 23.03 26.53 28.38 0.835 0.888 0.908 0.066 0.038 0.031 30% ~ 40% 21.62 24.94 26.93 0.787 0.855 0.882 0.087 0.051 0.040 40% ~ 50% 20.18 23.07 25.46 0.727 0.809 0.849 0.115 0.069 0.052 Facade 10% ~ 20% 25.93 27.05 28.28 0.897 0.912 0.926 0.039 0.032 0.028 20% ~ 30% 25.30 24.49 25.36 0.870 0.857 0.871 0.064 0.052 0.047 30% ~ 40% 22.00 23.21 24.53 0.780 0.815 0.841 0.084 0.068 0.059 40% ~ 50% 20.84 21.92 23.32 0.729 0.770 0.803 0.106 0.086 0.074 Places2 10% ~ 20% 22.49 27.34 27.68 0.867 0.910 0.912 0.059 0.031 0.029 20% ~ 30% 19.95 24.58 25.05 0.786 0.854 0.857 0.097 0.051 0.048 30% ~ 40% 18.49 22.72 23.41 0.714 0.800 0.805 0.131 0.071 0.066 40% ~ 50% 17.54 21.42 22.29 0.658 0.755 0.765 0.159 0.089 0.081 5.2 方案有效性分析
我们在建筑立面数据集上分别进行了两个分解实验来验证我们所提出方案的有效性. 为了更清楚地展示实验结果, 所有的实验均为矩形中心掩码情况下的图像修复结果.
1) 多级注意力传播的有效性
图9(a)为输入图像, 图9(b)为有注意力传播时的图像修复结果, 图9(c)为无注意力传播时的图像修复结果, 图9(d)为原图. 具体来说, 这次试验参与对比的分别为本文提出方案的结果与本文方案除去多级注意力传播时的结果. 可以看出在多级注意力传播的帮助下本文所提出的方案有着更准确的结构重建能力.
2) 复合判别器网络的有效性
如图10(a)为输入图像, 图10(b)为有复合判别器时的图像修复结果, 图10(c)为无复合判别器时的图像修复结果, 图10(d)为原图. 可以看出在复合粒度判别器的帮助下本文所提出的方案有着更细腻的细节重建能力.
5.3 组件研究
为验证多级注意力机制以及复合粒度判别器网络的有效性, 我们以平均L1损失为性能参考(平均L1损失越小性能越好), 进行了对比定量研究, 结果如表3所示. 其中, Att0至Att8为注意力组件, Single-D为单全局判别器, Cg-D为本文所提出的复合粒度判别器.
表 3 组件有效性研究Table 3 Effectiveness study on each componentAtt8 无 有 有 有 有 有 Att4 无 无 有 有 有 有 Att2 无 无 无 有 有 有 Att0 无 无 无 无 有 有 Single-D 有 有 有 有 有 无 Cg-D 无 无 无 无 无 有 Mean L1 loss 0.091 0.089 0.086 0.081 0.078 0.074 从表3中我们可以看出, 多级注意力传播可以在很大程度上提升网络性能, 同时由于复合粒度判别器对全局语义与非特定局部的密集约束, 网络性能得到了进一步提升.
5.4 泛化应用研究
为进一步验证我们方法的泛化能力, 我们还通过对所提出模型进行对象移除实际应用研究.
如图11所示, 在示例(a)中, 我们尝试删除人脸图像中的眼镜. 我们可以看到本文方法都成功地删除了眼镜, 并在眼镜区域重建出了清晰自然的人眼. 在示例(b)中, 我们的模型将面部大面积区域移除, 并重建出合理的结果. 值得注意的是, 示例(a)与示例(b)人脸图像均不是正视前方, 而在训练过程中, 整个训练集中的非正视前方图像只占据少数, 这从侧面说明了本文方法具有良好的泛化能力. 更多的成功移除特定对象, 重建出高品质的结果见示例(c)、(d)、(e)、(f).
6. 总结
本文提出了一种基于层级注意力传播的图像修复网络. 为解决图像修复结果中的结构错乱与语义对象模糊问题, 我们提出将编码器编码的高级语义特征进行多尺度压缩和多层级注意力特征传播, 以实现包括结构和细节在内的高级特征的充分利用. 同时, 为实现在一个阶段内完成粗粒度与细粒度图像的同步重建, 我们提出了一种复合粒度判别器网络对图像修复过程进行全局语义约束与非特定局部密集约束. 大量实验表明, 与经典主流方法相比, 我们提出的方法可以产生更高质量的修复结果.
-
表 1 循环神经网络的超参数设置
Table 1 The hyperparameters of RNN
超参数 具体取值 隐层大小 64 优化器 RMSProp, 配合梯度裁剪 初始学习率 0.001 批大小 64 训练轮数 12 延迟窗宽 14 表 2 周期损失和趋势损失的权重范围
Table 2 Weights range of seasonal loss and trend loss
权重 取值范围 $\lambda_S $ 0.05~0.15 $\lambda_T^{\rm{MEAN}} $ 0 $\lambda_T^{\rm{MAX}} $ 0.05~0.1 $\lambda_T^{\rm{MIN}} $ 0.05~0.1 $\lambda_T^{\rm{VAR}} $ 0 表 3 各种方法的能源价格预测效果对比
Table 3 The result comparisons of different methods for electricity price forecasting
模型 RMSE MAE ${MAE}^{\rm{MAX}}$ ${MAE}^{\rm{MIN}}$ ARIMA 6.41 4.77 5.15 4.82 SVR 4.91 3.71 4.27 3.34 KRR 5.14 3.75 3.81 3.78 RNN 5.09±0.24 3.75±0.19 3.72±0.28 3.78±0.19 LSTM 4.90±0.18 3.65±0.17 3.65±0.42 3.61±0.26 GRU 4.83±0.19 3.54±0.06 3.64±0.31 3.56±0.26 GRU, $\lambda_S$ = 0.1,$\lambda_T^{\rm{MAX}}$ = 0,$\lambda_T^{\rm{MIN}}$ = 04.71±0.16 3.49±0.13 3.53±0.28 3.53±0.15 GRU, $\lambda_S$ = 0.05,$\lambda_T^{\rm{MAX}}$ = 0,$\lambda_T^{\rm{MIN}}$ = 04.74±0.11 3.45±0.18 3.53±0.23 3.48±0.26 GRU, $\lambda_S$ = 0 ,$\lambda_T^{\rm{MAX}}$ = 0.1 ,$\lambda_T^{\rm{MIN}}$ = 0.14.85±0.16 3.57±0.20 3.41±0.26 3.41±0.18 GRU, $\lambda_S$ = 0 ,$\lambda_T^{\rm{MAX}}$ = 0.05 ,$\lambda_T^{\rm{MIN}}$ = 0.054.83±0.11 3.54±0.08 3.39±0.18 3.42±0.15 GRU, $\lambda_S$ = 0.1,$\lambda_T^{\rm{MAX}}$ = 0.1 ,$\lambda_T^{\rm{MIN}}$ = 0.14.68±0.08 3.45±0.03 3.35±0.13 3.33±0.12 GRU, $\lambda_S$ = 0.05,$\lambda_T^{\rm{MAX}}$ = 0.05 ,$\lambda_T^{\rm{MIN}}$ = 0.054.60±0.15 3.34±0.12 3.38±0.13 3.27±0.11 -
[1] Budish E, Cramton P, Shim J. The high-frequency trading arms race: Frequent batch auctions as a market design response. The Quarterly Journal of Economics, 2015, 130(4): 1547−1621 [2] He J, Li X, Liao L J, Song D D, Cheung W K. Inferring a personalized next point-of-interest recommendation model with latent behavior patterns. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. AAAI Press, 2016. 137−143 [3] Ren Y F, Wu Y. Convolutional deep belief networks for feature extraction of EEG signal. In: Proceedings of the 2014 International Joint Conference on Neural Networks. Beijing, China: IEEE, 2014. 2850−2853 [4] 张熙来, 赵俭辉, 蔡波. 针对PM2.5单时间序列数据的动态调整预测模型. 自动化学报, 2018, 44(10): 1790−1798Zhang Xi-Lai, Zhao Jian-Hui, Cai Bo. Prediction model with dynamic adjustment for single time series of PM2.5. Acta Automatica Sinica, 2018, 44(10): 1790−1798 [5] Keogh E, Chu S, Hart D, Pazzani M. Segmenting time series: A survey and novel approach. Data mining in time series databases. 2004. [6] Box G E P, Jenkins G M. Time series analysis: Forecasting and control. Journal of the Operational Research Society, 1971, 37(2): 238−242 [7] Engle R F. Autoregressive conditional heteroscedasticity with estimates of the variance of united kingdom inflation. Econometrica, 1982, 50(4): 987−1007 doi: 10.2307/1912773 [8] Bollerslevb T. Generalized autoregressive conditional heteroscedasticity. Eeri Research Paper, 1986, 31(3): 307−327 [9] Lu C J, Lee T S, Chiu C C. Financial time series forecasting using independent component analysis and support vector regression. Decision Support Systems, 2009, 47(2): 115−125 doi: 10.1016/j.dss.2009.02.001 [10] Engel Y, Mannor S, Meir R. The kernel recursive least-squares algorithm. IEEE Transactions on Signal Processing, 2004, 52(8): 2275−2285 doi: 10.1109/TSP.2004.830985 [11] Yang J C, Yan W W, Xu R C, Zhang X. A novel online kernel ridge to forecast next-day electricity price. International Journal of System Control and Information Processing, 2018, 2(4): 317−331 doi: 10.1504/IJSCIP.2018.097198 [12] Zhang J, Man K F. Time series prediction using RNN in multi-dimension embedding phase space. In: Proceedings of the 2002 IEEE International Conference on Systems, Man, and Cybernetics. IEEE, 2002. 1868−1873. [13] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks. In: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). IEEE, 2013. 6645−6649 [14] 伦淑娴, 林健, 姚显双. 基于小世界回声状态网的时间序列预测. 自动化学报, 2015, 41(9): 1669−1679Lun Shu-Xian, Lin Jian, Yao Xian-Shuang. Time series prediction with an improved echo state network using small world network. Acta Automatica Sinica, 2015, 41(9): 1669−1679 [15] Besse P C, Cardot H, Stephenson D B. Autoregressive forecasting of some functional climatic variations. Scandinavian Journal of Statistics, 2000, 27(4): 673−687 doi: 10.1111/1467-9469.00215 [16] Aggarwal S K, Saini L M, Kumar A. Electricity price forecasting in deregulated markets: A review and evaluation. International Journal of Electrical Power and Energy Systems, 2009, 31(1): 13−22 [17] Anbazhagan S, Kumarappan N. Day-ahead deregulated electricity market price forecasting using recurrent neural network. IEEE Systems Journal, 2013, 7(4): 866−87 doi: 10.1109/JSYST.2012.2225733 [18] Clements A E, Hurn A S, Li Z. Forecasting day-ahead electricity load using a multiple equation time series approach. European Journal of Operational Research, 2016, 251(2): 522−530 doi: 10.1016/j.ejor.2015.12.030 [19] Anbazhagan S, Kumarappan N. Day-ahead deregulated electricity market price forecasting using neural network input featured by DCT. Energy Conversion and Management, 2014, 78: 711−719 doi: 10.1016/j.enconman.2013.11.031 [20] Rafiei M, Niknam T, Khooban M H. Probabilistic forecasting of hourly electricity price by generalization of ELM for usage in improved wavelet neural network. IEEE Transactions on Industrial Informatics, 2017, 13(1): 71−79 doi: 10.1109/TII.2016.2585378 [21] Pascanu R, Mikolov T, Bengio Y. On the difficulty of training recurrent neural networks. In: Proceedings of the 2013 International Conference on Machine Learning. 2013. [22] Hochreiter S, Schmidhuber J. Long short-term memory. Neural computation, 1997, 9(8): 1735−1780 doi: 10.1162/neco.1997.9.8.1735 [23] Greff K, Srivastava R K, Koutnik J, Steunebrink B R, Schmidhuber J. LSTM: A search space odyssey. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(10): 2222−2232 doi: 10.1109/TNNLS.2016.2582924 [24] Cho K, Van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, Bengio Y. Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv: 1406.1078v1, 2014. [25] Caruana R. Multitask learning. Machine Learning, 1997, 28(1): 41−75 doi: 10.1023/A:1007379606734 期刊类型引用(27)
1. 陈晓华,吴杰康,杨国荣. 基于向量加权平均算法优化最小二乘支持向量机的电价短期预测. 黑龙江电力. 2025(01): 1-7 . 百度学术
2. 樊江川,于昊正,王冬生,安佳坤,杨丽君. 基于PLESN和LESQRN概率预测模型的短期电力负荷预测. 燕山大学学报. 2024(01): 54-61 . 百度学术
3. 唐磊,宋婷婷. 区域经济发展潜力时间序列预测模型仿真. 湖北文理学院学报. 2024(05): 20-24 . 百度学术
4. 俞银泉,王子赟,王艳. 基于强化学习的电池制造能力可变权组合预测. 信息与控制. 2024(05): 561-573 . 百度学术
5. 王亚军,白翱,张博,郭超. 基于TOGAF的工艺知识全生命周期管理架构研究. 知识管理论坛. 2024(06): 519-532 . 百度学术
6. 陈佳鲜,毛文涛,刘京,王港胜. 基于时间序列迁移递归预测的未知工况下滚动轴承在线剩余寿命评估. 控制与决策. 2023(01): 112-122 . 百度学术
7. 李刚,孟坤,贺帅,刘云鹏,杨宁. 考虑特征耦合的Bi-LSTM变压器故障诊断方法. 中国电力. 2023(03): 100-108+117 . 百度学术
8. 张旭,张亮,金博,张红哲. 基于不确定性的多元时间序列分类算法研究. 自动化学报. 2023(04): 790-804 . 本站查看
9. 亢子恺,亢子欣. 基于大数据分析技术的电力市场短期电价预测. 自动化技术与应用. 2023(07): 95-98 . 百度学术
10. 杨璟,郑启明,姚新文,陈光武,王小敏. 基于深度网络的轨道电路暂态特征多补偿电容故障定位. 铁道科学与工程学报. 2023(07): 2653-2663 . 百度学术
11. 骆钊,吴谕侯,朱家祥,赵伟杰,王钢,沈鑫. 基于多尺度时间序列块自编码Transformer神经网络模型的风电超短期功率预测. 电网技术. 2023(09): 3527-3537 . 百度学术
12. 刘烃,王子骏,刘杨,周亚东,吴江,鲍远义,吴桐,管晓宏. 数据推断:信息物理融合系统数据泄露威胁范式和防御方法. 中国科学:信息科学. 2023(11): 2152-2179 . 百度学术
13. 杨全林. 连续多级船闸闸次自动识别与命名方法研究. 人民长江. 2022(01): 225-230 . 百度学术
14. 李潇睿,班晓娟,袁兆麟,乔浩然. 工业场景下基于深度学习的时序预测方法及应用. 工程科学学报. 2022(04): 757-766 . 百度学术
15. 杨乘胜,张世超,朱海东,赵竟,张永涵,张庭玉. 基于日前披露数据相似性的电力市场出清价格预测方法. 电力大数据. 2022(01): 59-66 . 百度学术
16. 韩升科,胡飞虎,陈之腾,张琳,白兴忠. 基于GCN-LSTM的日前市场边际电价预测. 中国电机工程学报. 2022(09): 3276-3286 . 百度学术
17. 郭贺宏,武灵耀,赵庆生,梁定康,王旭平,程昱舒. 基于趋势指标与长短时记忆网络的电力市场日前电价预测. 智慧电力. 2022(09): 97-103 . 百度学术
18. 宋津,米利群,苏妍嫄. 基于多视图注意力机制的多维度价格预测模型研究. 计算机应用研究. 2022(11): 3258-3262 . 百度学术
19. 吴玮,郑子炜,卫栎,李琦,孙祎泽. 基于组合模型的电价预测方法及应用. 能源与节能. 2022(12): 10-14+24 . 百度学术
20. 钟百鸿,王琳,钟诗胜. 基于综合灰关联序模型的残差门控循环神经网络位标器零部件选配. 中国机械工程. 2021(03): 314-320+356 . 百度学术
21. 张国政,申君歌. 基于多周期时间序列的灰色预测模型及其应用. 统计与决策. 2021(09): 14-19 . 百度学术
22. 钟百鸿,王琳,钟诗胜,徐松,张勇飞,刘兴兴,王杜林. Stacked-GRU网络在动力随动陀螺零部件选配上的应用. 飞控与探测. 2021(03): 67-75 . 百度学术
23. 郭戈,徐涛,韩英华,赵强. 电动汽车时代的电网-交通网协同优化综述. 控制与决策. 2021(09): 2049-2062 . 百度学术
24. 王晓蕾,张艳,柳平增,温孚江,郑勇,王刚. 基于堆叠式LSTM与熵值法的苹果价格组合预测模型研究. 中国农机化学报. 2021(10): 157-164 . 百度学术
25. 熊珞琳,毛帅,唐漾,孟科,董朝阳,钱锋. 基于强化学习的综合能源系统管理综述. 自动化学报. 2021(10): 2321-2340 . 本站查看
26. 张国政,罗党. 基于季节波动序列的灰色预测模型及其应用. 统计与决策. 2021(23): 23-27 . 百度学术
27. 邓雪凝. 基于MPMR方法的中长期电价预测模型研究. 电子技术与软件工程. 2020(12): 153-155 . 百度学术
其他类型引用(26)
-