Study of Missing Value Imputation in Wind Turbine Data Based on Multivariate Spatiotemporal Integration Network
-
摘要: 风电场数据的完整性会因恶劣天气、输入信号丢失、传感器故障等原因遭到破坏, 而大面积的数据缺失将给风机设备的运行和维护带来严峻考验. 因此, 提出一个多变量时空融合网络(Multivariate spatiotemporal integration network, MSIN)来解决缺失数据问题. 首先, 提出包含缺失值定位−指引机制的MSIN结构, 揭示缺失部分数据的潜在信息, 确保插补数据符合真实分布. 其次, 在网络中设计多视角时空卷积模块, 捕捉同一风机多个变量与多个风机同一变量之间的局部空间和全局时间相关性, 用于提高插补数据的真实性. 接着, 提出网络实时自更新机制, 根据风电场实时变化情况实现在线调整, 能够提升网络泛化能力, 由此弥补重新训练模型的时间和空间成本高的缺陷. 最后, 通过真实的风机数据验证所提网络的有效性和优越性. 相关分析结果表明, 相较于MissForest等传统数据插补方法的插补性能, 平均绝对误差(Mean absolute error, MAE)、平均绝对百分比误差(Mean absolute percentage error, MAPE)和均方根误差(Root mean square error, RMSE)分别下降 18.54%、41.00% 和 3.15% 以上.Abstract: The integrity of wind farm data can be damaged by bad weather, input signal loss, sensor failure, etc., and the large-scale data loss will bring severe tests to the operation and maintenance of wind turbine equipment. Therefore, this paper proposes a multivariate spatiotemporal integration network (MSIN) to solve the missing data problem. Firstly, the structure of MSIN is proposed to include a localization guidance mechanism for missing values, which reveals the potential information of the missing part of the data and ensures that the imputed data conforms to the true distribution. Secondly, a multi-view spatiotemporal convolution module is designed in the network to capture the local spatial and global temporal correlations between multiple variables of the same wind turbine and the same variable of multiple wind turbines, which is used to improve the realism of the imputed data. Then, a real-time self-updating mechanism is proposed to adjust the network online according to the real-time changes of wind farms, which can improve the generalization ability of the network and thus make up for the defect of high time and space costs when retraining the model. Finally, the effectiveness and superiority of the proposed network are verified by real wind turbine data. The results show that the mean absolute error (MAE), the mean absolute percentage error (MAPE), and the root mean square error (RMSE) are reduced by more than 18.54%, 41.00% and 3.15%, respectively, when compared with the traditional data imputation methods such as MissForest and so on.
-
“碳中和·碳达峰”是促进中国能源经济转型、构建人类命运共同体的重要战略决策, 为实现双碳目标, 风能作为最具竞争力的清洁能源正受到世界范围的强烈关注[1-3]. 风机都配备具有远程监督和控制功能的监控和数据采集(Supervisory control and data acquisition, SCADA)系统, SCADA系统累积了大量风机数据, 但由于地处偏远且环境恶劣, 加之多变的工作条件, 从而导致传感器故障、数据传输噪声和丢失、功率输出受限或设备异常等情况发生[4], 进而使得数据在收集、传输和存储中不可避免地会发生丢失和损坏. 数据缺失会导致三大问题[5-6]: 1) 许多数据驱动的模型不能直接处理含有缺失值的数据集; 2) 缺失数据过多会导致数据集中有效数据的数量减少, 数据的精度降低, 训练达不到理想效果或存在训练过拟合的风险; 3) 缺失数据使训练数据分布出现偏差, 会导致分析结果出现显著偏差, 建立的模型不准确. 数据缺失不仅会破坏信息的完整性, 还会导致数据挖掘和分析出现偏差. 然而, 如状态监测[7]、故障诊断[8]、风–功率预测[9] 和功率曲线建模[10] 等风机下游任务需要有完整数据集才能够完成. 例如, 无线电干扰造成风机状态监测信号数据丢失, 给后续信号处理和状态监测带来困难, 甚至可能会导致状态监测失败[11]. 风机的风速计结冰, 从而在数据中留下空白, 造成的数据丢失可能导致风能资源估算出现偏差[12]. 因此, 需要进行合理的数据插补来提高数据的质量, 以完成风机的下游任务. 数据插补对风机研究有重要意义.
插补方法主要分为基于统计概念的方法(均值、热卡插补和多重插补)和基于数据驱动的深度学习方法(通过模型拟合对缺失值进行预测)两类[13-16].
在基于统计概念的方法中, 通过研究统计特征和缺失数据的概率进行缺失数据插补. Mostafa 等[17] 使用累积线性回归插补算法对插补变量进行累积, 并将变量纳入线性回归方程, 以填补下一个缺失值. Razavi-Far 等[18] 提出基于后插补的期望最大化(Expectation-maximization, EM)算法, 通过融合模块完成插补值的融合. Ye 等[19] 提出一种联合插补模型, 为数据集属性构建一个贝叶斯网络, 通过该网络推断出缺失的属性值. Zhang[20] 提出一种使用R链式方程多重插补(Multiple imputation by chained equations, MICE)逐步进行多重插补的方法. 然而, 基于统计概念的方法的插补性能可能会受到模型假设限制. 例如, EM 算法通常定义所有属性的联合分布, MICE方法通常将缺失数据插补视为一组线性回归问题. 因此, 在属性之间关系复杂的情况下, 以上方法的理想化模型假设应用于风机数据插补时, 由于缺少对数据集未观测数据分布和时空相关性的学习, 插补结果的真实性可能有所欠缺.
近年来, 基于数据驱动的深度学习方法不需要过多模型假设, 其所具备的强大拟合能力和泛化能力使之成为插补缺失数据最常用的方法[21]. Tak 等[22] 提出一种使用K-邻近法的数据驱动型插补方法, 一次插补多个传感器数据. Folguera 等[23] 提出一种基于自组织图的数据插补方法, 该方法以权重的距离对象为概念, 对缺失值进行插补. Pan 等[24] 提出一种基于多层感知器(Multilayer perceptron, MLP)的离散缺失值插补方法, 该方法采用动量梯度下降算法, 并利用预填充策略来提高MLP的插补收敛速度. Khan 等[25] 提出一种卷积神经网络来插补缺失值, 使用经过网络训练的核来完成每个实例的缺失值插补. Yu 等[26] 提出一种时空图卷积网络, 是在图上对问题进行表述, 并用完整的卷积结构构建模型. Zhang 等[27] 提出一种基于残差神经网络的方法, 根据时空数据的属性设计网络的端到端结构. Yoon 等[28] 提出一种生成现实时间序列数据的框架, 将无监督范例的灵活性与有监督训练的控制性结合在一起. 与基于统计概念的方法相比, 数据驱动方法不需要先验知识和显式数学表达式, 并具有可靠的数据插补结果. 然而, 当缺失数据集的时空模式更加复杂时, 上述方法在处理高度复杂、非线性和非平稳的时间序列数据时可能面临挑战, 往往无法完全捕捉这些特征, 难以获得令人满意的数据插补结果. 在插补风机数据时还存在以下难点: 1) 上述插补方法往往只能从原始数据集中提取观测数据集训练模型, 缺少对未观测数据的学习, 插补结果与真实数据相比出现显著偏差; 2) 风机数据具有复杂的时空相关性, 若无法准确描述时空相关性, 会造成插补建模不准确, 数据插补精度大大降低; 3) 风机数据受所处环境影响很大, 多变的环境使数据插补也变得困难, 然而基于固定参数模型的方法难以满足插补需求.
为解决上述问题, 本文提出多变量时空融合网络(Multivariate spatiotemporal integration network, MSIN) 模型, 在设计具有缺失值定位–指引机制的生成对抗网络基础之上, 通过设计多视角时空卷积模块来捕获潜在的全局以及局部的时空关系, 同时考虑到实际风场环境的不确定性和随机变化等因素, 提出实时自更新机制, 用来及时响应外部环境的动态变化.
本文所做的贡献如下:
1) 提出一种面向风机数据的多变量时空融合网络, 网络学习真实底层数据分布进行数据插补. 在此基础上设计缺失值定位–指引机制, 为提出的网络模型提供缺失值信息.
2) 设计多视角时空卷积模块, 通过学习风机时间衰减和空间相关性, 捕捉跨时间步长的依赖关系和空间相关性, 完成赋予时空属性的数据插补研究.
3) 提出联合损失函数, 将能够衡量数据整体、属性和分布的多种损失函数相结合, 量化插补值与实际值的概率分布差异, 实现风机数据局部和全局的插补性能评估.
4) 提出实时自更新机制, 该机制能够从原始数据中学习变化趋势, 并根据数据分布变化完成模型微调, 赋予模型适应性的能力, 从而适应SCADA系统大数据应用场景下风电场动态变化环境.
1. 先验知识
空间分散的风电场并不是独立运行、互不影响的. 实际上, 分布在某一区域内的风电场之间以及同一风电场内不同风机之间都存在很强的时空相关性. 风电场中的实际情况是, 即使是同一风电场中相邻的风机, 在风机排列不同的情况下, 其输出功率也会有很大差异. 这种差异可归因于多种因素, 包括尾流区域风速不足、风向传输效应、气象系统穿越风场的距离等. 因此, 风机的输出功率会有明显差异. 其变化规律表明, 风速、风向和风电场间距等因素会影响时空相关性, 沿风向的相关性高于其他方向. 此外, 相邻风机的相关性随着风机间距的增加而减弱.
风机的相关性是数据插补的关键性因素, 为获得更好的插补效果, 筛选出强相关性的变量是非常重要的. 为此, 本文采用皮尔逊相关系数(Pearson correlation coefficient, PCC)法, 并设置PCC的阈值为$ \delta _\mathrm{pcc}=0.5 $(阈值通过风机变量相关性分析及大量的实验确定), 公式如下
$$ \begin{equation} \mathrm{PCC} ( x, \;y )=\frac{{\rm{E}} ( xy )-{\rm{E}} ( x ){\rm{E}} ( y )}{\sqrt{{\rm{E}} (x^{2} ) -{\rm{E}}^{2} ( x )} \sqrt{{\rm{E}} ( y^{2} )-{\rm{E}}^{2} ( y )}} \end{equation} $$ (1) 其中, $ x $和$ y $是输入数据的两个风机变量.
使用PCC将数据处理完毕后, 接着使用最大信息系数(Maximal information coefficient, MIC)法, 令其阈值为$ \delta _\mathrm{mic}=0.3 $, 计算任意两个数据变量$ x $与$ y $之间的$ \mathrm{MIC} ( x,\; y ) $值, 公式如下
$$ \begin{equation} \mathrm{MIC} ( x,\; y )=\max_{\eta _{x} \eta _{y}< B ( \eta ) }\frac{I ( x, \;y ) }{\log_{2}\left ({\min ( \eta _{x} \eta _{y} )} \right )} \end{equation} $$ (2) 其中, $ B ( \eta )=\eta^{0.6} $, $\eta$是数据点的个数, $ \eta _{x} $和$ \eta _{y} $是$ X $轴和$ Y $轴的分区块数. 互信息值$ I ( x,\; y ) $的公式如下
$$ \begin{split} I ( x, \;y ) =\;&H ( x ) +H ( y ) -H ( x,\; y ) = \\ & \sum_{i=1 }^{\eta _{x}}p ( x_{i} )\log_{2}{\frac{1}{p ( x_{i} ) } } \;+ \\ & \sum_{j=1 }^{\eta _{y}}p ( y_{j} )\log_{2}{\frac{1}{p ( y_{j} ) } }\; - \\ & \sum_{i=1 }^{\eta _{x}}\sum_{j=1 }^{\eta _{y}}p ( x_{i}y_{j} )\log_{2}{\frac{1}{p ( x_{i}y_{j} ) } } \end{split} $$ (3) 其中, $H(x) $和$ H(y) $分别代表随机变量$ x $和$ y $的熵, $H(x, \;y)$是它们的联合熵, $ p(\cdot) $表示概率分布.
PCC和MIC可以相互补充, 对各个变量的线性和非线性进行分析. 根据阈值对风机61个变量进行判断, 删除如总解缆转数、总偏航次数、偏航运行时间等无关的特征, 最终保留如表 1所示的28个相关变量.
表 1 风机变量Table 1 The variables of wind turbine编号 变量 编号 变量 1 轮毂转速 14 风电机定子温度1 2 叶片桨距角1 15 风电机定子温度2 3 叶片桨距角2 16 风电机定子温度3 4 叶片桨距角3 17 风电机定子温度4 5 节点X方向振动值 18 风电机定子温度5 6 节点Y方向振动值 19 风电机定子温度6 7 电网侧输出功率 20 发电机输出功率 8 风向偏移角度 21 轮毂角度 9 速度传感器 22 发电机转矩 10 ISU温度 23 INU RMIO 温度 11 发电机环境温度1 24 齿轮箱前轴承温度 发电机环境温度2 齿轮箱后轴承温度 12 机舱温度 25 INU温度 13 风速 26 风向 进一步, 图 1显示了同一风机不同变量之间的时间相关性以及不同风机同一变量之间的空间相关性, 其中某些风机变量之间和处于不同位置的风机之间具有较强的耦合性. 然而, 现有的插补方法受缺失数据集数据量大、预处理复杂、面向风机的时空特征提取的应用较少等局限, 大多数现有文献都忽略了这种时空相关性, 导致模型插补精度不理想、泛化效果不佳. 在此基础上, 本文提出的MSIN能够为插补研究提供缺失值的有效信息, 捕捉数据之间的时空相关性, 适应于变化的多场景, 突破现有插补方法的局限性.
2. 多变量时空融合网络
2.1 网络结构
生成对抗式多变量时空融合网络的网络架构如图 2所示, 生成器$ G $和判别器$ D $实现对抗训练, 完成插补研究. $ G $观察真实数据的掩码矩阵$ M_{j}、 $随机矩阵$ Z $和观测矩阵$ \tilde{X} $, 专注于填充数据的缺失部分, 通过由卷积、多视角时空卷积模块和反卷积组成的生成器$ G $, 将更新后的掩码矩阵与观测矩阵叠加, 得到输出的完整数据. $ D $的任务是判断一个完整数据的分量是观测量或插补量, 并输出概率估算矩阵. 此插补网络能够突破大多数深度学习方法需要使用完整数据集训练模型或者是仅通过数据集的可观测部分来学习数据分布的限制, 缺失值定位–指引机制为$ H $提供原始数据缺失部分的信息, 在此机制的辅助下, $ G $把注意力集中在未观测部分的插补上, 确保$ D $能够学习真实的数据分布.
假设存在一个$ d $维空间, 数据集$ \tilde{X} $被定义为符合以下公式
$$ \begin{equation} \tilde{X}_{j}=\left\{\begin{aligned}& X_{j}, &&M_{j}=1\\& \ast, && M_{j}=others \end{aligned}\right. \end{equation} $$ (4) 其中, $ M_{j} $是掩码矩阵, $ j\in \left \{ 1, \;\cdots ,\; d \right \} $. $ M_{j} = 1 $时, $ X_{j} $是观测值; $ M_{j} = others $时, $ \ast $是缺失值.
生成器$ G $的输入是$ \tilde{X} $、$ M=\left ( M_{1}, \;\cdots ,\; M_{d}\right) $和噪声$ Z=\left ( Z_{1}, \;\cdots ,\; Z_{d}\right) $. 生成器输出插补向量$ \bar{X} $, $ \bar{X} $是一条完整的数据向量, 生成器在插补缺失部分的同时, 也将原有的未缺失部分进行插补和替换. 使用插补向量替换$ \tilde{X} $的未观测部分得到$ \hat{X} $, $ \odot $表示元素相乘, $ \bar{X} $和$ \hat{X} $的定义如下
$$ \begin{equation} \bar{X}=G \left ( \tilde{X}, M, \;\left ( \mathbf{1} -M \right ) \odot Z \right ) \end{equation} $$ (5) $$ \begin{equation} \hat{X}=M\odot \tilde{X}+\left ( \mathbf{1}-M \right )\odot \bar{X} \end{equation} $$ (6) 缺失值定位–指引机制$ H $强化了$ G $和$ D $的对抗过程, 它是一个随机变量. $ H $定义不同, 作为传递给判别器$ D $的一个额外的输入指引信息则不同, 如 $ H = 0 $ 或 $ H = 1 $时, 缺失值定位–指引机制提示$ D $, 输入数据中的对应值是插补的还是真实的; $ H = 0.5 $时进行混淆, 限制$ G $得到有效信息的程度, 加快收敛, 从而可以训练出具有多个分布的$ G $, 根据$ D $的结果选择最优插补值. $ B= ( B_{1}, \;\cdots , \; B_{d})\in \left \{ 0,\; 1 \right \} ^{d} $为随机变量, $ H $的定义如下
$$ \begin{equation} H = B\odot M + 0.5\left ( \mathbf{1}-B \right ) \end{equation} $$ (7) $$ \begin{equation} B_{j}=\begin{cases} 1, & \text{ } j\neq k\\ 0, & \text{ } j=k \end{cases} \end{equation} $$ (8) $$ \begin{equation} H_{j}=\begin{cases} M_{j}, & \text{} j\neq i\\ 0.5, & \text{} j=i \end{cases} \end{equation} $$ (9) 其中, 设$ M_{0} , \;M_{1} \in \left \{ 0, \;1 \right \} ^{d} $, 使它们只有一个分量不同, 并让这个分量成为第$ i $个分量. 其中$ M_{0} $的第$ i $个分量为0, $ M_{1} $的第$ i $个分量为1. $ k $和$ j $被定义为从$ \left \{ 1,\; \cdots ,\;d \right \} $中随机抽样, 可得$ H=\left \{ 0, \;0.5,\; 1 \right \}^{d} $.
为完成训练, 所提出的目标函数是通过最大化正确预测$ M $的概率来训练$ D $, 通过最小化$ D $能够正确预测$ M $的概率来训练$ G $, 定义如下
$$ \begin{split} &\underset{G}{\min }\;\underset{D}{\max }{{\rm{E}}}_{\hat{X}, M, H} ( M^{\rm{T}}\ln D ( \hat{X} , H )\;+ \\ & \qquad ( 1-M^{\rm{T}} )\ln ( 1-D ( \hat{X}, H ) ) ) \end{split} $$ (10) 2.2 多视角时空卷积模块
由第$ 1 $节可知时间依赖性和特征相关性对于风机数据插补的重要性, 在遵循从局部到全局的规律下, 本文分两部分对缺失数据进行插补, 一是从空间特征相关性探讨局部缺失数据与空间维度上邻近的数据之间的相关性; 二是根据历史数据的缺失模式时间特征依赖性对缺失值进行插补, 同时保持数据全局的时间连续性, 具体如图 3所示, 图 3中的$ {\tau _{t}} $为时间间隔.
现有的模型只考虑风机的时间连续性, 忽略了空间异质性和风机之间的连通性与全局性, 即假设时空相互作用是稳定的, 这意味着模型结构在整个空间范围内是全局固定的. 然而, 全局性固定时间划分策略对于详细反映风机在时间上的非稳态变化是无效的. 因此, 准确的风机时空表示对于使风机插补更贴近真实数据至关重要. 为此, 在整合风机时空信息或动态特征的基础之上, 本节提出多视角时空卷积模块. 其中模块的卷积操作是基于风机数据的时空依赖性将数据的时间维度特征隐式地传递到空间特征序列中, 以此捕捉同一风机多个变量与多个风机同一变量之间的局部空间和全局时间相关性.
$ 1) $局部空间特征相关性. 在同一时间步中, 风机不同的特征之间可能存在一定的相关性, 因为时间序列数据的相似属性通常作为特征向量在一个时间步中连接起来, 如风速和输出功率, 可能会相互影响和相互联系. 通过下式的缺失值插补, 学习不同特征之间的交互模式
$$ \begin{equation} \hat{X}_{t}=wX_{t}+b \end{equation} $$ (11) $$ \begin{equation} \hat{X}_{t}=M_{t}X_{t}+\left ( 1-M_{t} \right )\hat{X}_{t} \end{equation} $$ (12) 其中, $ X_{t} $是原始时间序列的分解成分, $ \hat{X}_{t} $是在一个时间步长$ t $中原始的输入值, $ w $, $ b $是卷积神经网络(Convolutional neural network, CNN)的权重和偏置, $ M_{t} $是掩码值, 其数值是由数据集预先确定的. 通过与$ \hat{X}_{t} $做运算, 赋予了$ \hat{X}_{t} $时空特性.
$ 2) $全局时间特征相关性. 时序数据的特点是观测值对缺失值的贡献, 即时空相关性, 取决于它们之间的时间间隔, 时间间隔越大, 观测值对缺失数据重建的影响越小. 本文通过设计时间特征相关性模块捕捉这种衰减效应
$$ \begin{equation} \zeta _{t}=\frac{1}{ \mathrm{e}^{\max \left ( 0,\; w+b\right )}} \end{equation} $$ (13) $$ \begin{equation} \tilde{X}_{t-1}=\tilde{X}_{t-1}\odot \zeta _{t} \end{equation} $$ (14) $$ \begin{equation} \tilde{X}_{t}=\mathrm{CNN} (\tilde{X}_{t-1}, \;w, \;b ) \end{equation} $$ (15) $$ \begin{equation} \tilde{X}_{t}=M_{t}X_{t}+\left ( 1-M_{t} \right )\tilde{X}_{t} \end{equation} $$ (16) 其中, $ \zeta _{t} $是衰减系数, $ {\tilde{X}_{t}} $是考虑时间衰减性和序列相邻数据约束的缺失值.
最终根据掩码信息$ M_{t} $和时间衰减学习了权衡系数$ \lambda _{t} $, 以此来确定时间和空间两者对提取特征的作用百分比, 有效地结合时间和空间可以更准确地描述数据的特征
$$ \begin{equation} \lambda _{t}=f\left ( w\left (M_{t}\circ\zeta _{t} \right )+b \right ) \end{equation} $$ (17) $$ \begin{equation} O_{t}=\lambda _{t}\odot\tilde{X}_{t} + \left ( 1-\lambda _{t} \right ) \hat{X}_{t} \end{equation} $$ (18) 其中, $ f\left ( \cdot \right ) $为限定在0与1之间的激活函数; $“ {\circ} ”$是连通操作(Concat); $ O_{t} $是时空模块最终的输出, 输出值保留了原始时间序列数据的时空特征.
2.3 联合损失函数
考虑到风机缺失数据与相邻数据之间的强相关性, 提出联合损失函数, 用于提高网络对数据间交互程度的衡量, 插补与原始数据的潜在映射和相应分布相匹配的数据, 进一步提高插补数据的能力. 联合损失函数包括JS损失、对抗损失以及重建损失.
$ 1) $JS损失
用于衡量插补分量与周围紧邻的观测分量的接近程度以及插补分量对于时空相邻的观测分量之间的局部相关性和全局相关性, 并且组合掩码矩阵提供缺失数据的位置信息. JS损失对于多视角时空卷积模块也具有辅助作用, 进一步缩小了损失值, 提高了插补数据的真实性.
$$ \begin{split} L_{js} =\;&\frac{1}{2} \sum_{j=0}^{n}X_{j}\mathrm{ln} \left (\frac{2X_{j} }{ X_{j}+\bar{X}_{j}}\right)+\\ &\frac{1}{2} \sum_{j=0}^{n}\bar{X}_{j}\ln \left (\frac{2\bar{X}_{j}}{{X}_{j}+\bar{X}_{j} }\right) \end{split} $$ (19) 其中, $ {X_{j}} $是生成器的输入, 即真实观测数据; $ {\bar{X}_{j}} $是生成器输出的插补数据.
$ 2) $重建损失
最小二乘正则化器用于测量每个缺失项的插补数据与真实数据之间的重构误差, 从而确保生成器的重构能力, 当重构特征与观测特征接近时, 重构损失最小
$$ \begin{equation} L_{r} (X,\; \bar{X} )=\sum\limits_{j=1}^{n}m_{j}\left ( \bar{X}_{j}-X_{j} \right )^{2} \end{equation} $$ (20) 其中, 当数据是插补的, $ m_{j}=0 $; 当数据是观测的, $ m_{j}=1 $.
$ 3) $对抗损失
为使插补数据与风机的真实数据尽可能地接近, 采用对抗损失, 对抗损失包括生成器损失$ L_{g} $和判别器损失$ L_{d} $. 生成器接收不完整的风机数据, 用观测到的部分插补缺失的部分, 得到完整的数据输出. 判别器判别数据是插补的还是观测的. 生成器和判别器的对抗损失函数如下所示
$$ \begin{split} {L_d}( {m,\; \hat m, \;\bar b} )=\; & \sum\limits_{j:{\bar{b}_j=0}} {\left( {{m_j}\ln ( {{{\hat m}_j}} )} \right.}+ \\ &\left. { \left( {1 - {m_j}} \right)\ln ( {1 - {{\hat m}_j}} )} \right) \end{split} $$ (21) 式中, $m $是掩码矩阵的真实值, $ \hat m $是掩码矩阵的预测值, $ \bar b $为式(8)中随机变量$ B $的取值, $ \bar{b}_{j}=0 $即需要判别器进行判断的值对应提示矩阵信息量为$ 0 $
$$ \begin{equation} L_{g} ( m,\; \hat{m},\; \bar b )=-\sum\limits_{j:\bar{b}_{j}=0 }^{}\left ( 1-m_{j} \right )\ln_{}{\hat{m}_{j}} \end{equation} $$ (22) 根据$\min_{D}(-\sum_{j=1}^{K_{D}}L_{D} ( m ( j ), \;\hat{m} ( j ), \;\bar b ( j ) ))$来训练判别器$ D $, $ K_{D} $为训练$ G $与$ D $的样本批次. 对抗损失不仅确保$ G $对观测分量的输出值成功欺骗判别器, 还确保$ G $对观测分量的输出值与实际观测值接近. 此外, 这还有助于确保网络能够在其隐藏层中有效地捕获和学习特征.
$ 4) $MSIN目标损失
$ L_{g} $和$ L_{d} $受到生成对抗网络的启发, 最小化这两个指标可以使插补数据充分符合真实数据的分布. $ L_{r} $测量插补数据与真实数据之间的损失, 最小化这个指标可以使插补出的数据足够准确. $ L_{js} $约束每个插补值符合其周围相邻值的分布, 最小化这个指标可以使输入数据符合其局部分布. 结合上述损失函数, MSIN的生成器和判别器的损失函数定义如下
$$ \begin{equation} L_{G} =L_{g} +\alpha L_{r} +\beta L_{js} \end{equation} $$ (23) $$ \begin{equation} L_{D} =L_{d} \end{equation} $$ (24) 其中, $ L_{G} $为生成器损失, $ L_{D} $为判别器损失, $ {\alpha} $和$ {\beta} $是超参数.
2.4 实时自更新机制
由于风电场所处环境的因素, 风机受天气和设备通信等影响, 采集的数据存在一定的随机性, 短时间内风速、风向的变化往往是不规则的, 会导致场景中出现不合理的波动, 因此需要MSIN具备适应复杂多变环境的能力, 本文使用实时自更新机制来解决这个问题.
实时自更新机制意味着模型按照时间顺序接收训练数据, 并根据接收样本的损失和梯度对模型进行更新. 该机制不需要在计算机中存储所有训练数据, 但可以根据数据分布的变化自动调整模型本身. 这些优势使得实时自更新机制更适合于处理海量的数据, 并及时响应外部环境中的动态变化. 使用函数${F:{\mathcal{K}}_{1} \times {\mathcal{K}}_{2}\to {\bf{R}} }$来定义生成器和判别器的训练过程, 表征生成器和判别器的效用, 定义实时自更新机制需要满足的准则
$$ \begin{equation} F ( g,\; d )\le \min\limits_{g\in {\mathcal{K}}_{1} }F ( g, \;d ) \end{equation} $$ (25) $$ \begin{equation} F ( g,\; d )\ge \max\limits_{d\in {\mathcal{K}}_{2} }F ( g,\;d ) \end{equation} $$ (26) 其中, $ {\mathcal{K}}_{1} $和$ {\mathcal{K}}_{2} $分别是生成器$ G $和判别器$ D $选择的一些连续状态集. 定义零和博弈为函数$ F:\mathcal{K}_{1}\times \mathcal{K}_{2} \to {\bf{R}} $, $ \mathcal{K} $为决策集, $ \left ( g, \;d \right )\in \mathcal{K}_{1}\times\mathcal{K}_{2} $是一个纯策略.
在满足准则的前提下, $ G $和$ D $在每个时间步骤中都在最大化和最小化MSIN的全局目标函数. 用队列$ Q_{1} $, $ Q_{2} $来保存$ G $和$ D $处理的风机样本数据的历史状态, 每更新n步, 删除队列中最旧的数据历史记录, 并向队列中添加新的数据记录, 始终保持队列的完整性, 并通过队列保存的历史数据状态来更新优化的$ G $和$ D $, 经过$ T $轮迭代后, 计算方法为
$$ \begin{equation} g_{t}\gets \mathrm{arg}\min\limits_{g\in {\mathcal{K}}_{1} } \sum\limits_{\tau =0}^{t-1}f_{\tau } ( g ) \end{equation} $$ (27) $$ \begin{equation} d_{t}\gets \mathrm{arg}\max\limits_{d\in {\mathcal{K}}_{2} } \sum\limits_{\tau =0}^{t-1}\bigtriangledown h_{\tau }\left ( d_{\tau } \right )^\mathrm{T} d-\frac{\sqrt{T} }{2\eta _{0} }\left \| d \right \|^{2} \end{equation} $$ (28) 其中, $ g_{t} $ 是 $ G $ 的在线决策, $ d_{t} $ 是 $ D $ 的在线决策, $f_{\tau } ( g )$是 $ G $ 接收的损失序列, $ \bigtriangledown h_{\tau }\left ( d_{\tau } \right )^\mathrm{T} d $ 是 $ D $ 的线性近似值, 参数$ \eta _{0} $取决于半凹的零和对策$ F $的Lipschitz常数以及${\mathcal{K}}_{2}$的直径.
进一步, 训练目标是最大程度减小决策误差值, 决策误差$ E_{N} $是生成器和判别器的累积损失和最佳固定损失, 其定义如下
$$ \begin{equation} E_{N} ( f_{1}, \;\cdots ,\; f_{N} ) = \sum\limits_{t=1}^{N}f_{t} ( g_{t} )-\min\limits_{g\ast \in {\mathcal{K}}} {\sum\limits_{t=1}^{N}f_{t} ( g^{\ast } ) } \end{equation} $$ (29) $$ \begin{equation} g_{t}=\mathrm{arg}\min\limits_{g\in {\mathcal{K}}}\sum\limits_{\tau =1}^{t-1}S_{\tau } ( g )+\eta ^{-1}R ( g ) \end{equation} $$ (30) 其中, 变量 $g^{\ast }$ 是决策空间 ${\mathcal{K}} $ 中的一个最优决策, $\mathrm{arg}\min_{g\in {\mathcal{K}}} \sum_{\tau =1}^{t-1}S_{\tau } ( g )$为$ \mathcal{K} $中选择使累计函数损失最小的点, $\eta ^{-1}R ( g )$为正则化项.
$ G $和$ D $经过反复交替训练最小化决策误差, 最终达到平衡状态, 此时, 总是存在一个混合纳什均衡, 即总是存在两个分布$ i_{1} $, $ i_{2} $
$$ \begin{equation} {\rm{E}} _{ ( g, d )\sim i_{1}\times i_{2}} ( F ( g, d ) ) \le \min\limits_{g\in {\mathcal{K}}_{1}}{\rm{E}}_{d\sim i_{2} } ( F ( g, d ) )\;+\;\varepsilon \end{equation} $$ (31) $$ \begin{equation} {{\rm{E}}} _{ ( g, d )\sim i_{1}\times i_{2}} ( F ( g, d ) ) \ge \max\limits_{d\in {\mathcal{K}}_{2}}{{\rm{E}}}_{g\sim i_{1} } ( F ( g, d ) )\;-\;\varepsilon \end{equation} $$ (32) 其中, $ \varepsilon =\mathrm{O} ( 1/\sqrt{T} ) $, $ T $是当前时间到最后一次更新时间之间的时间间隔.
计算生成器和判别器的序列$ f\left ( \cdot \right ) $, $ h\left ( \cdot \right ) $, 更新队列$ Q_{1} $, $ Q_{2} $.
2.5 网络训练流程图
基于生成对抗网络的多变量时空融合网络流程图如图 4所示, 具体步骤为:
初始化实时自更新机制, 即初始化生成器和判别器的序列以及队列$ Q_{1} $, $ Q_{2} $; 判断此时模型是否收敛, 若收敛则结束训练, 若未收敛则进行判别器的训练, 即训练过程一直保持自更新状态; 在此过程中, 首先固定生成器, 训练判别器, 计算$ {\bar{X} ( j )} $, $ {\hat{X} ( j )} $和$ {H ( j )} $值; 根据随机梯度下降法更新判别器; 接着固定判别器, 训练生成器, 根据随机梯度下降法更新生成器; 计算生成器和判别器的序列, 使用最新的样本, 更新队列$ Q_{1} $和$ Q_{2} $, 并删除最老的样本, 直至模型收敛, 训练结束.
3. 实验
3.1 实验设置
实验数据采用某北方风电场收集的SCADA数据, 数据的采样间隔为10 min. 所有的实验都使用完整的数据, 通过从完整数据集中随机删除一定的数据来获取缺失的数据集, 通过将插补数据与真实数据对比来验证本文所提MSIN方法的有效性. 实验中共使用$ 350 $天的数据, 这些SCADA数据从风电场的SCADA系统中导出. 如第1节中表 1所示, 数据包含28个特征, 将观测数据按照已有顺序进行排列, 构成维度为28×28的输入样本, 根据设置的卷积核和步长的大小变化, 卷积过程的维度变化情况是: 28×28、14×14、7×7、4×4; 在卷积和反卷积的过程中, 相应位置的特征对应一致, 因此这两个操作的维度变化是互为逆过程, 由此可知反卷积过程数据维度变化情况是: 4×4、7×7、14×14、28×28. 由于是数据整体性分析, 因此对多变量数据插补时, 采用的输入数据与单一变量缺失的区别在于缺失数据的个数、缺失数据的数量及相应时刻不同, 其余输入数据参数(如维度、排列顺序等)未发生变化. 考虑到不同的评价指标往往具有不同的大小和单位, 会影响数据分析的结果. 为消除指标间大小和单位的影响, 以解决数据指标之间的可比性问题, 本文采用最大最小归一化的方式, 将原始数据标准化后均匀地缩放并映射到[0, 1] 区间. 消除数据的单位限制, 将其转化为无量纲的数值. 所有实验均是在Intel(R) Core(TM) i5-8265U CPU @ 1.60 GHz上完成的, 通过经验(Experience of experts)和试错(Trial-and-error)法选择参数, 具体的实验结果显示在表 2 ~ 5. 表中的粗体值是该列的最小值, 并综合了三个评价指标来选择最优值. 网络的参数设置如下: 提示率为0.9, $ \alpha =100 $, $ \beta = 0.1 $, 迭代次数为25, 学习率为0.001. 为验证本文方法在不同缺失率下的插补效果, 在不同缺失率下做了多次实验.
表 2 不同提示率下的评估结果Table 2 Evaluation results under different hint-rates提示率 MAE MAPE RMSE 0.10 0.1549 3.0010 0.2396 0.20 0.1552 2.9599 0.2398 0.30 0.1557 2.3107 0.2384 0.40 0.1564 2.2437 0.2401 0.50 0.1552 3.3131 0.2390 0.60 0.1555 2.2019 0.2400 0.70 0.1577 2.2831 0.2398 0.80 0.1543 2.8454 0.2397 0.90 0.1541 1.1783 0.2381 0.95 0.1561 1.9770 0.2391 表 3 不同$ \alpha $下的评估结果Table 3 Evaluation results under different$ \alpha $$ \alpha $ MAE MAPE RMSE 0.0001 0.6231 27135.3668 0.4956 0.0010 0.4983 128671.0614 0.6251 0.0100 0.4963 42939.8706 0.6236 0.1000 0.4967 167721.3201 0.6238 1 0.3625 229.8665 0.4843 10 0.1805 23.6173 0.2644 100 0.1539 5.4836 0.2321 1000 0.1518 5.7790 0.2488 表 4 不同$ \beta $下的评估结果Table 4 Evaluation results under different$ \beta $$ \beta $ MAE MAPE RMSE 0.0001 0.1532 1.2270 0.2320 0.0010 0.1505 2.3903 0.2290 0.0100 0.1507 2.3558 0.2274 0.1000 0.1499 1.9291 0.2268 1 0.1530 4.0830 0.2319 10 0.1801 23.7244 0.2641 100 0.3652 237.1457 0.4874 1000 0.4970 35792.8434 0.6240 表 5 不同学习率下的评估结果Table 5 Evaluation results under different learning rates学习率 MAE MAPE RMSE 0.0001 0.2121 1.7066 0.2941 0.0010 0.1521 1.4009 0.2295 0.0100 0.4272 4.2201 0.5652 0.1000 0.4264 7.0552 0.5648 1 0.4302 5.2400 0.5676 10 0.4269 7.8907 0.5646 100 0.4272 9.6068 0.5657 1000 0.4298 6.7900 0.5674 为验证数据插补性能, 本文介绍以下三个指标来评估数据插补的结果: 平均绝对误差(Mean absolute error, MAE), 平均绝对百分比误差(Mean absolute percentage error, MAPE)和均方根误差(Root mean square error, RMSE)
$$ \begin{equation} \mathrm{MAE}=\frac{1}{WS} \sum\limits_{j=1}^{W}\sum\limits_{i=1}^{S}\left | R_{i, j}-C_{i, j} \right | \end{equation} $$ (33) $$ \begin{equation} \mathrm{MAPE}=\frac{1}{WS} \sum\limits_{j=1}^{W}\sum\limits_{i=1}^{S}\left | \frac{R_{i, j}-C_{i, j}}{C_{i, j}}\right |\times 100 \% \end{equation} $$ (34) $$ \begin{equation} \mathrm{RMSE}=\sqrt{\frac{1}{WS} \sum\limits_{j=1}^{W}\sum\limits_{i=1}^{S}\left ( R_{i, j}-C_{i, j} \right ) ^{2} } \end{equation} $$ (35) 其中, $ {W} $和${S}$是矩阵的行数和列数, $ {R} $是原始缺失数据, $ {C} $是通过插补获得的完整数据.
3.2 插补结果
在本节中, 展示风机数据插补的可视化结果, 并使用评价指标验证所提方法的有效性.
首先, 通过对相同缺失率下的4种不同情况的风机样本进行插补, 说明方法的插补能力. 图 5是数据插补结果示例, 橙色的实线表示原始数据样本的趋势, 蓝色的虚线表示进行插补后的完整样本的趋势. 虽然产生缺失的原因不同, 但从图5中四个子图的曲线重叠程度来看, 插补数据和原始数据在绝大部分采样点的归一化数值都是一致的, 这说明所提方法插补的数据与原始数据类似. 由于按顺序接收样本并进行更新, 当前模型能够对数据变化做出快速反应. 插补数据与原始数据之间的差异微乎其微, 因此所提出的在线更新机制能有效地插补环境变化下的数据.
进一步, 研究不同缺失率下相同风机数据的插补效果. 图 6为缺失率从0.1增大到0.8的插补结果, 缺失率越大, 原始数据与插补数据重合程度越小, 说明缺失率越低插补效果越好. 表 6展示三种不同评价指标的结果, 其中包含最小值(min)、最大值(max)和平均值(avg). 根据图表的插补结果, 可以得出以下结论: 1) 在相同缺失率下, 即使应对不同的缺失场景, 所提方法均有良好的插补效果; 2) 随着缺失率的增加, 相应的数据插补性能有所下降; 3) 三个评价指标的值均处于较低水平. 因此, 这些结论表明, 在进行的实验中, 插补的数据与原始的数据在统计上相似. 无论是图表的直观表示, 还是相应的三个评价指标的定量分析结果, 都表明MSIN 在不同缺失数据情况下的插补性能优异.
表 6 风机数据在不同缺失率下的评价指标结果Table 6 Results of evaluation metrics for wind turbine data with different missing rates缺失率 MAE MAPE RMSE max min avg max min avg max min avg 0.1 0.1653 0.0822 0.1179 3.8283 1.2530 2.3968 0.2432 0.1556 0.1877 0.2 0.1768 0.1052 0.1298 3.7203 1.1687 2.4970 0.2656 0.1724 0.2032 0.3 0.1914 0.1127 0.1409 3.7355 1.2704 2.6702 0.2768 0.1884 0.2186 0.4 0.1791 0.1079 0.1356 3.5158 1.2851 2.6973 0.2841 0.1920 0.2244 0.5 0.1881 0.1217 0.1418 3.6810 1.2905 2.7583 0.2654 0.2068 0.2269 0.6 0.1968 0.1386 0.1544 3.7117 1.2130 2.7925 0.2823 0.2239 0.2753 0.7 0.1994 0.1789 0.1629 3.8964 1.2025 2.8347 0.2833 0.2353 0.2538 0.8 0.1999 0.1625 0.1787 3.9935 1.2148 2.8559 0.3004 0.2465 0.2734 3.3 消融实验
本文的消融实验由三个模块组成: 时空模块 (ST)、JS损失函数 (JS)和重建损失 (R), 为了公平地评价MSIN中每个模块的有效性和优势, 本文设计了消融实验, 图 7展示相关结果.
MSIN: 本文提出的完整的MSIN方法.
MSIN-R: 在MSIN的基础上去掉重建损失, 表明重建损失在网络中的作用.
MSIN-ST: 在MSIN的基础上去掉多视角时空卷积模块, 即, 此时该方法缺乏对风机时空关系的捕捉, 能够体现多视角时空卷积模块对于网络插补效果的影响.
MSIN-JS: 该方法由生成对抗网络和多视角时空卷积模块组成, 旨在证明在对抗生成网络的基础上去掉JS散度对于插补效果的影响.
MSIN-ST-JS: 该方法保留生成对抗网络的结构及重建损失.
MSIN-ST-JS-R: 该方法仅包含生成对抗网络结构.
如图 7所示, MSIN方法在插补数据时, 相对于完全去掉提取时空特征模块的MSIN-ST而言, MAE、MAPE、RMSE的数值都实现了很大程度的下降. 对比MSIN-ST与MSIN, 说明多视角时空卷积模块为时空特征提取中重要的结构, 对提高插补网络的性能贡献极大. 当去掉重建损失时, MSIN-R和MSIN-ST-JS-R的三种评价指标都远大于其他方法, 可见重建损失是对插补效果影响最大的模块. JS散度损失函数对于插补网络的影响虽然没有重建损失模块和ST模块那么明显, 但JS散度损失与ST模块结合, 对于ST模块具有辅助作用, 可以进一步降低三个评价指标的数值, 加入JS散度损失函数相当于整体上进行优化. 即, 当ST模块、JS模块和R模块共同作用时, 插补效果是最好的.
3.4 对比实验
通过计算插补数据训练时间(表 7)和CPU利用率(图 8), 评估所提方法的数据训练成本. 每次迭代的运行时间反映了MSIN方法的在线插补和参数更新过程. 由于MSIN具有更复杂的网络结构、多视角时空卷积模块和实时自更新机制, 因此与传统方法相比, MSIN的运行时间更长. 而传统统计方法由于不涉及神经网络训练, 因此运行时间较短, CPU利用率较低. 在运行时间和CPU利用率方面, 所提方法处于深度学习方法的中上游, 在更短的时间与更低的CPU利用率之间取得了平衡. 因此, 与其他深度学习方法相比, MSIN的数据插补成本更具优势.
表 7 七种插补方法一次迭代的运行时间(s)Table 7 Running time of the seven imputation methods for one iteration (s)插补方法 缺失率 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 MSIN 4.3156 4.7167 4.9595 5.1400 5.1159 4.9905 5.1656 5.0997 TimeGAN[28] 6.5895 6.6172 7.3519 8.8907 7.7120 8.4728 7.8757 8.3546 M-RNN[29] 81.1218 70.8649 69.9753 67.5593 69.0319 68.2631 71.2586 68.9668 MIRACLE[30] 0.2554 0.3761 0.3752 0.3925 0.3879 0.3692 0.3712 0.3941 MICE[31] 2.5963 2.1705 2.1164 2.7042 2.2922 2.3221 2.6145 2.5653 MissForest[32] 0.5963 0.5771 0.7897 0.7921 0.8396 0.9587 0.9132 0.8527 LGDI[33] 15.6514 14.0879 15.8731 16.3439 14.9822 17.3042 15.9346 17.8468 为证明MSIN方法的优越性, 本文将MSIN与一些依赖于统计概念的插补方法和基于深度学习的数据驱动插补方法作比较, 包括时间序列生成式对抗网络(Time-series generative adversarial networks, TimeGAN)[28]、多向循环神经网络(Multi-directional recurrent neural network, M-RNN)[29]、因果感知插补算法(Causally-aware imputation algorithm, MIRACLE)[30]、MICE方法[31]、MissForest插补方法[32]、大缺口数据插补方法(Large gaps data imputation, LGDI)[33].
$ 1) $ TimeGAN: 由前馈网络实现的恢复函数和递归网络实现的嵌入网络构成自编码部分, 由递归网络实现的生成器和带有前馈输出层的双向递归网络实现的判别器构成对抗部分, 两个部分共同训练.
$ 2) $ M-RNN: 由插补模块和补偿模块两个部分构成, 除了基础的M-RNN, 还在两个M-RNN 单元之间加入dropout层, 两个模块同时训练能够完成数据流内的插补和跨数据流的插补.
$ 3) $ MIRACLE: 通过同时学习一个$ m $图, 使用一个自助插补循环来改进基线插补, 该循环用一个学习到的因果图逐步正则化预测.
$ 4) $ MICE: 通过一系列预测模型的迭代, 插补数据集中的缺失数据. 对预测模型进行一系列迭代, 在每次迭代中, 数据集中的每个指定变量都会使用数据集中的其他变量进行估计, 这些迭代会持续运行直到收敛.
$ 5) $ MissForest: 首先, 使用中值插补填补缺失值. 然后, 将缺失值标记为“预测”行, 将其他行标记为训练行, 并将其输入经过预测训练的随机森林模型. 然后将该行生成的预测值填入, 生成一个转换后的数据集.
$ 6) $ LGDI: 是一种基于迭代的方法, 它将重塑和极值分离操作与 MICE算法相结合, 使用一系列回归模型, 并利用之前的估计值预测后续变量.
图 9显示了整个实验结果, 综合图 9(a)、图 9(b)、图 9(c)三张子图来看, MSIN方法远远超过了其他方法. 随着缺失率的增加, 训练时的梯度变化不明显, 说明 MSIN的优势在高缺失率(大于0.2)条件下依然明显, 在此条件下仍能够捕捉时空特征, 最终的收敛值也较其他六个模型小. 与其他模型相比, MAE、MAPE 和 RMSE分别下降18.54%、41.00% 和 3.15%以上. 这意味着时空特征被保留下来且插补的数据符合良好的数据分布. 本文所提方法一般优于经典统计法和数据驱动方法, 该方法捕获了周围的邻域关系, 并考虑了整个风电场的局部和全局时空关系, 即使是在缺失率增加的情况下, MSIN仍能保持良好且稳定的插补结果.
4. 结束语
本文设计一种基于生成对抗网络的多变量时空融合方法MSIN, 用于解决风机SCADA数据缺失问题. MSIN是一个包含生成对抗结构、缺失值定位–指引机制、多视角时空卷积模块、联合损失函数模块和实时自更新机制的神经网络, 弥补了其他数据插补模型只关注数据本身的分布而忽视了时间和空间相关性对风机数据的影响的缺陷. 1) 在该方法中, 缺失值定位–指引机制为生成器提供了缺失数据位置信息, 并辅助判别器判别数据真伪; 2) 多视角时空卷积模块通过对局部空间特征相关性和全局时间特征相关性的提取, 捕捉了风机时间序列潜在的时空相关性; 3) 联合损失函数有助于获取缺失数据与相邻数据的关系; 4) 实时自更新机制学习数据分布来处理大量数据, 并且能够根据外部环境的动态变化及时作出响应, 由此使网络能够适应于多变环境. 通过实验对比显示MSIN的插补性能要优于其他方法.
本文通过生成对抗网络实现风电机组缺失数据插补问题的研究, 在此基础上, 仍有以下三点问题需要进一步研究: 1) 研究风电场数据与其他多源数据(如气象、地理信息)的融合, 以提高插补数据的全面性和精确性; 2) 提高模型的可解释性, 通过解释模型参数和决策过程, 使得模型的输出更具可信度; 3) 考虑模型在面对极端天气等情况下的性能, 以提高其在实际应用中的普适性.
-
表 1 风机变量
Table 1 The variables of wind turbine
编号 变量 编号 变量 1 轮毂转速 14 风电机定子温度1 2 叶片桨距角1 15 风电机定子温度2 3 叶片桨距角2 16 风电机定子温度3 4 叶片桨距角3 17 风电机定子温度4 5 节点X方向振动值 18 风电机定子温度5 6 节点Y方向振动值 19 风电机定子温度6 7 电网侧输出功率 20 发电机输出功率 8 风向偏移角度 21 轮毂角度 9 速度传感器 22 发电机转矩 10 ISU温度 23 INU RMIO 温度 11 发电机环境温度1 24 齿轮箱前轴承温度 发电机环境温度2 齿轮箱后轴承温度 12 机舱温度 25 INU温度 13 风速 26 风向 表 2 不同提示率下的评估结果
Table 2 Evaluation results under different hint-rates
提示率 MAE MAPE RMSE 0.10 0.1549 3.0010 0.2396 0.20 0.1552 2.9599 0.2398 0.30 0.1557 2.3107 0.2384 0.40 0.1564 2.2437 0.2401 0.50 0.1552 3.3131 0.2390 0.60 0.1555 2.2019 0.2400 0.70 0.1577 2.2831 0.2398 0.80 0.1543 2.8454 0.2397 0.90 0.1541 1.1783 0.2381 0.95 0.1561 1.9770 0.2391 表 3 不同$ \alpha $下的评估结果
Table 3 Evaluation results under different$ \alpha $
$ \alpha $ MAE MAPE RMSE 0.0001 0.6231 27135.3668 0.4956 0.0010 0.4983 128671.0614 0.6251 0.0100 0.4963 42939.8706 0.6236 0.1000 0.4967 167721.3201 0.6238 1 0.3625 229.8665 0.4843 10 0.1805 23.6173 0.2644 100 0.1539 5.4836 0.2321 1000 0.1518 5.7790 0.2488 表 4 不同$ \beta $下的评估结果
Table 4 Evaluation results under different$ \beta $
$ \beta $ MAE MAPE RMSE 0.0001 0.1532 1.2270 0.2320 0.0010 0.1505 2.3903 0.2290 0.0100 0.1507 2.3558 0.2274 0.1000 0.1499 1.9291 0.2268 1 0.1530 4.0830 0.2319 10 0.1801 23.7244 0.2641 100 0.3652 237.1457 0.4874 1000 0.4970 35792.8434 0.6240 表 5 不同学习率下的评估结果
Table 5 Evaluation results under different learning rates
学习率 MAE MAPE RMSE 0.0001 0.2121 1.7066 0.2941 0.0010 0.1521 1.4009 0.2295 0.0100 0.4272 4.2201 0.5652 0.1000 0.4264 7.0552 0.5648 1 0.4302 5.2400 0.5676 10 0.4269 7.8907 0.5646 100 0.4272 9.6068 0.5657 1000 0.4298 6.7900 0.5674 表 6 风机数据在不同缺失率下的评价指标结果
Table 6 Results of evaluation metrics for wind turbine data with different missing rates
缺失率 MAE MAPE RMSE max min avg max min avg max min avg 0.1 0.1653 0.0822 0.1179 3.8283 1.2530 2.3968 0.2432 0.1556 0.1877 0.2 0.1768 0.1052 0.1298 3.7203 1.1687 2.4970 0.2656 0.1724 0.2032 0.3 0.1914 0.1127 0.1409 3.7355 1.2704 2.6702 0.2768 0.1884 0.2186 0.4 0.1791 0.1079 0.1356 3.5158 1.2851 2.6973 0.2841 0.1920 0.2244 0.5 0.1881 0.1217 0.1418 3.6810 1.2905 2.7583 0.2654 0.2068 0.2269 0.6 0.1968 0.1386 0.1544 3.7117 1.2130 2.7925 0.2823 0.2239 0.2753 0.7 0.1994 0.1789 0.1629 3.8964 1.2025 2.8347 0.2833 0.2353 0.2538 0.8 0.1999 0.1625 0.1787 3.9935 1.2148 2.8559 0.3004 0.2465 0.2734 表 7 七种插补方法一次迭代的运行时间(s)
Table 7 Running time of the seven imputation methods for one iteration (s)
插补方法 缺失率 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 MSIN 4.3156 4.7167 4.9595 5.1400 5.1159 4.9905 5.1656 5.0997 TimeGAN[28] 6.5895 6.6172 7.3519 8.8907 7.7120 8.4728 7.8757 8.3546 M-RNN[29] 81.1218 70.8649 69.9753 67.5593 69.0319 68.2631 71.2586 68.9668 MIRACLE[30] 0.2554 0.3761 0.3752 0.3925 0.3879 0.3692 0.3712 0.3941 MICE[31] 2.5963 2.1705 2.1164 2.7042 2.2922 2.3221 2.6145 2.5653 MissForest[32] 0.5963 0.5771 0.7897 0.7921 0.8396 0.9587 0.9132 0.8527 LGDI[33] 15.6514 14.0879 15.8731 16.3439 14.9822 17.3042 15.9346 17.8468 -
[1] 胡旭光, 马大中, 郑君, 张化光, 王睿. 基于关联信息对抗学习的综合能源系统运行状态分析方法. 自动化学报, 2020, 46(9): 1783−1797Hu Xu-Guang, Ma Da-Zhong, Zheng Jun, Zhang Hua-Guang, Wang Rui. An operation state analysis method for integrated energy system based on correlation information adversarial learning. Acta Automatica Sinica, 2020, 46(9): 1783−1797 [2] 王睿, 孙秋野, 张化光. 微电网的电流均衡/电压恢复自适应动态规划策略研究. 自动化学报, 2022, 48(2): 479−491Wang Rui, Sun Qiu-Ye, Zhang Hua-Guang. Research on current sharing/voltage recovery based adaptive dynamic programming control strategy of microgrids. Acta Automatica Sinica, 2022, 48(2): 479−491 [3] 李远征, 倪质先, 段钧韬, 徐磊, 杨涛, 曾志刚. 面向高比例新能源电网的重大耗能企业需求响应调度. 自动化学报, 2023, 49(4): 754−768Li Yuan-Zheng, Ni Zhi-Xian, Duan Jun-Tao, Xu Lei, Yang Tao, Zeng Zhi-Gang. Demand response scheduling of major energy-consuming enterprises based on a high proportion of renewable energy power grid. Acta Automatica Sinica, 2023, 49(4): 754−768 [4] Hu X G, Zhang H G, Ma D Z, Wang R. Hierarchical pressure data recovery for pipeline network via generative adversarial networks. IEEE Transactions on Automation Science and Engineering, 2022, 19(3): 1960−1970 doi: 10.1109/TASE.2021.3069003 [5] 张博玮, 郑建飞, 胡昌华, 裴洪, 董青. 基于流模型的缺失数据生成方法在剩余寿命预测中的应用. 自动化学报, 2023, 49(1): 185−196Zhang Bo-Wei, Zheng Jian-Fei, Hu Chang-Hua, Pei Hong, Dong Qing. Missing data generation method based on flow model and its application in remaining life prediction. Acta Automatica Sinica, 2023, 49(1): 185−196 [6] 杜党波, 张伟, 胡昌华, 周志杰, 司小胜, 张建勋. 含缺失数据的小波−卡尔曼滤波故障预测方法. 自动化学报, 2014, 40(10): 2115−2125Du Dang-Bo, Zhang Wei, Hu Chang-Hua, Zhou Zhi-Jie, Si Xiao-Sheng, Zhang Jian-Xun. A failure prognosis method based on wavelet-Kalman filtering with missing data. Acta Automatica Sinica, 2014, 40(10): 2115−2125 [7] Jin X H, Wang H, Kong Z Q, Xu Z W, Qiao W. Condition monitoring of wind turbine generators using SCADA data analysis. IEEE Transactions on Sustainable Energy, 2021, 12(1): 202−210 doi: 10.1109/TSTE.2020.2989220 [8] Liu Z P, Wang X F, Zhang L. Fault diagnosis of industrial wind turbine blade bearing using acoustic emission analysis. IEEE Transactions on Instrumentation and Measurement, 2020, 69(9): 6630−6639 doi: 10.1109/TIM.2020.2969062 [9] 刘畅, 郎劲. 基于混核LSSVM的批特征风功率预测方法. 自动化学报, 2020, 46(6): 1264−1273Liu Chang, Lang Jin. Wind power prediction method using hybrid kernel LSSVM with batch feature. Acta Automatica Sinica, 2020, 46(6): 1264−1273 [10] 孔小兵, 刘向杰. 双馈风力发电机非线性模型预测控制. 自动化学报, 2013, 39(5): 636−643Kong Xiao-Bing, Liu Xiang-Jie. Nonlinear model predictive control for DFIG-based wind power generation. Acta Automatica Sinica, 2013, 39(5): 636−643 [11] Peng Y Y, Qiao W, Qu L Y. Compressive sensing-based missing-data-tolerant fault detection for remote condition monitoring of wind turbines. IEEE Transactions on Industrial Electronics, 2022, 69(2): 1937−1947 doi: 10.1109/TIE.2021.3057039 [12] Coville A, Siddiqui A, Vogstad K O. The effect of missing data on wind resource estimation. Energy, 2011, 36(7): 4505−4517 doi: 10.1016/j.energy.2011.03.067 [13] Liu X, Zhang Z J. A two-stage deep autoencoder-based missing data imputation method for wind farm SCADA data. IEEE Sensors Journal, 2021, 21(9): 10933−10945 doi: 10.1109/JSEN.2021.3061109 [14] 许美玲, 邢通, 韩敏. 基于时空Kriging方法的时空数据插值研究. 自动化学报, 2020, 46(8): 1681−1688Xu Mei-Ling, Xing Tong, Han Min. Spatial-temporal data interpolation based on spatial-temporal Kriging method. Acta Automatica Sinica, 2020, 46(8): 1681−1688 [15] Ma D Z, Hu X G, Zhang H G, Sun Q Y, Xie X P. A hierarchical event detection method based on spectral theory of multidimensional matrix for power system. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2021, 51(4): 2173−2186 doi: 10.1109/TSMC.2019.2931316 [16] Hu X G, Zhang H G, Ma D Z, Wang R. A tnGAN-based leak detection method for pipeline network considering incomplete sensor data. IEEE Transactions on Instrumentation and Measurement, 2020, 70: Article No. 3510610 [17] Mostafa S M. Imputing missing values using cumulative linear regression. CAAI Transactions on Intelligence Technology, 2019, 4(3): 182−200 doi: 10.1049/trit.2019.0032 [18] Razavi-Far R, Cheng B Y, Saif M, Ahmadi M. Similarity-learning information-fusion schemes for missing data imputation. Knowledge-based Systems, 2020, 187: Article No. 104805 doi: 10.1016/j.knosys.2019.06.013 [19] Ye C, Wang H Z, Lu W B, Li J Z. Effective Bayesian-network-based missing value imputation enhanced by crowdsourcing. Knowledge-based Systems, 2020, 190: Article No. 105199 doi: 10.1016/j.knosys.2019.105199 [20] Zhang Z H. Multiple imputation with multivariate imputation by chained equation (MICE) package. Annals of Translational Medicine, 2016, 4(2): Article No. 30 [21] 文成林, 吕菲亚, 包哲静, 刘妹琴. 基于数据驱动的微小故障诊断方法综述. 自动化学报, 2016, 42(9): 1285−1299Wen Cheng-Lin, Lv Fei-Ya, Bao Zhe-Jing, Liu Mei-Qin. A review of data driven-based incipient fault diagnosis. Acta Automatica Sinica, 2016, 42(9): 1285−1299 [22] Tak S, Woo S, Yeo H. Data-driven imputation method for traffic data in sectional units of road links. IEEE Transactions on Intelligent Transportation Systems, 2016, 17(6): 1762−1771 doi: 10.1109/TITS.2016.2530312 [23] Folguera L, Zupan J, Cicerone D, Magallanes J F. Self-organizing maps for imputation of missing data in incomplete data matrices. Chemometrics and Intelligent Laboratory Systems, 2015, 143: 146−151 doi: 10.1016/j.chemolab.2015.03.002 [24] Pan H, Ye Z, He Q Y, Yan C Y, Yuan J Y, Lai X D, et al. Discrete missing data imputation using multilayer perceptron and momentum gradient descent. Sensors, 2022, 22(15): Article No. 5645 doi: 10.3390/s22155645 [25] Khan H, Wang X Z, Liu H. Handling missing data through deep convolutional neural network. Information Sciences, 2022, 595: 278−293 doi: 10.1016/j.ins.2022.02.051 [26] Yu B, Yin H T, Zhu Z X. Spatio-temporal graph convolutional networks: A deep learning framework for traffic forecasting. arXiv preprint arXiv: 1709.04875, 2018. [27] Zhang J B, Zheng Y, Qi D K. Deep spatio-temporal residual networks for citywide crowd flows prediction. In: Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI Press, 2017. 1655−1661 [28] Yoon J, Jarrett D, Schaar M V D. Time-series generative adversarial networks. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2019. 5508−5518 [29] Yoon J, Zame W R, Schaar M V D. Estimating missing data in temporal data streams using multi-directional recurrent neural networks. IEEE Transactions on Biomedical Engineering, 2019, 66(5): 1477−1490 doi: 10.1109/TBME.2018.2874712 [30] Kyono T, Zhang Y, Bellot A, Schaar M V D. MIRACLE: Causally-aware imputation via learning missing data mechanisms. arXiv preprint arXiv: 2111.03187, 2021. [31] Zhang Y F, Thorburn P J, Xiang W, Fitch P. SSIM——A deep learning approach for recovering missing time series sensor data. IEEE Internet of Things Journal, 2019, 6(4): 6618−6628 doi: 10.1109/JIOT.2019.2909038 [32] Li Z G, He Q. Prediction of railcar remaining useful life by multiple data source fusion. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(4): 2226−2235 doi: 10.1109/TITS.2015.2400424 [33] Wu R, Hamshaw S D, Yang L, Kincaid D W, Etheridge R, Ghasemkhani A. Data imputation for multivariate time series sensor data with large gaps of missing data. IEEE Sensors Journal, 2022, 22(11): 10671−10683 doi: 10.1109/JSEN.2022.3166643 期刊类型引用(1)
1. 甘路. 基于物联网的机器人目标跟踪方法研究. 企业观察家. 2024(05): 73-75 . 百度学术
其他类型引用(0)
-