A Multivariate Decision Tree for Big Data Classification of Distributed Data Streams
-
摘要: 分布式数据流大数据中的类别边界不规则且易变,因此基于单变量决策树的集成分类器需要较大数量的基分类器才能准确地近似表达类别边界,这将降低集成分类器的学习与分类性能.因而,本文提出了基于几何轮廓相似度的多变量决策树.在最优基准向量的引导下将n维空间样本点投影到一维空间以建立有序投影点集合,然后通过类别投影边界将有序投影点集合划分为多个子集,接着分别对不同类别集合的交集递归投影分裂,最终生成决策树.实验表明,本文提出的多变量决策树GODT具有很高的分类精度和较低的训练时间,有效结合了单变量决策树学习效率高与多变量决策树表示能力强的优点.Abstract: Considering the irregularity and variability of the class boundaries of distributed big data streams, when the univariate decision tree is used as the base classifier in an ensemble classifier, large amounts of base classifiers are needed to accurately approximate class boundaries. This will reduce the learning and classification performance of ensemble classifiers. This article proposes a multivariate decision tree based on geometric outline similarity (GODT). Firstly, by using the optimal reference vector, the n-dimensional data points are projected onto the one-dimensional space, thus a set of ordered projection points are established. Secondly, the set of projection points are divided into several subsets, and the intersections of different subsets are projected and divided by recursive projecting and splitting. Finally, a decision tree is built. Experimental results show that GODT has a better classification accuracy and requires less training time. It combines the high learning efficiency of univariate decision tree algorithm with the strong representation power of multivariate decision tree.
-
Key words:
- Distributed data streams /
- big data /
- classification /
- outline similarity /
- multivariate decision tree
-
随着现代工业过程规模日趋庞大, 系统内部联系变得更加紧密, 因此, 系统运行的可靠性和安全性也成为倍受关注的系统品质.故障诊断技术因可对故障类型、故障部位及原因进行诊断, 并为排除故障进而实现系统容错提供有力的科学依据和保障, 始终是学术界研究的热点[1-3].
残差是进行故障检测和故障分离的基础, 对于实际工业过程而言, 残差的获取离不开传感器对现场数据的有效采集.近年来, 虽然针对具体系统模型的故障诊断已经取得了许多成果[4-5], 但一个更具意义的课题是如何在故障诊断实现过程中选取所需的最小传感器集合, 从而将系统中传感器的配置纳入系统的设计体系, 进而将提高系统的安全可靠性提前到设计阶段.文献[6]通过判断系统状态的可分离性, 延伸为确定系统故障是否可分离, 进而选取系统所需的传感器集合.文献[7]采用传感器最小代价优化方法, 以满足系统故障的可分离性.文献[8]使用一种解析方法, 通过寻找最小的传感器集合, 实现了对系统的故障检测和故障分离.
然而, 上述方法均采用系统结构描述的方式来完成传感器最小集的选取, 在考虑每个传感器对于故障的可诊断性贡献时仅采用了"是"或"否"两种定性选择, 无法进行相应的定量评估.此外, 由于系统中不可避免的噪声、干扰等不确定性因素的影响, 使得即使选取了满足要求的传感器集合, 实际运行过程中也存在诊断效果不尽人意的问题.因此, 如何采用量化评价的方式进行系统的故障可诊断性评价, 并进而据此进行传感器的优化配置, 对于改善系统的故障诊断效果和提高系统的安全可靠性, 都具有重要的意义, 也极具挑战性.
对于故障可诊断性的量化评价问题, 近年来有了一些初步的研究成果.文献[9]通过运用K-L散度计算中的对数似然比特性, 结合假设检验的方法, 提出了一种对数据进行量化分类的方法.以此为理论依据, 文献[10]仅依靠线性系统的自身属性, 使用K-L散度方法, 给出了故障可检测性和故障可分离性的定量评价指标.此外, 随着非线性系统研究的不断深入, 以测量概率分布差异度为基础的K-L散度方法, 因其在量化计算中具有对系统模型依赖性少的优势, 为解决非线性系统故障可诊断的量化评价研究提供了可借鉴的思路[11-13].文献[14]在基于K-L散度进行线性系统故障可诊断性评价的基础上, 利用贪心算法进行了传感器的优化选取.然而, 由于该算法难以实现全局最优和工业工程普遍的非线性特征, 使其应用受限.
本文针对非线性系统故障诊断中传感器的优化配置问题, 首先采用改进的K-L散度方法, 对非线性系统的故障可诊断性进行定量评价; 在此基础上, 使用动态规划法优化选取满足系统故障可诊断要求的传感器最优集合, 从而将系统的故障诊断性能作为系统的本征需求纳入系统设计之初, 为提高系统的安全水平提供有效的途径.
1. 问题描述
1.1 一个例子
引入文献[15]中的一个实例说明在系统故障诊断过程中, 传感器优化配置的重要性.
文献[15]中一类线性系统故障诊断传感器优化配置为
$ \begin{align} \label{eq1} \dot {x}_1 =-x_1 +x_2 +x_5\notag \\ \dot {x}_2 =-2x_2 +x_3 +x_4 \notag\\ \dot {x}_3 =-3x_3 +x_5 +f_1 +f_2\notag \\ \dot {x}_4 =-4x_4 +x_5 +f_3 \notag\\ {x}_5 =-5x_5 +u+f_4 \end{align} $
(1) 其中, $x_i $, $i=1, 2, \cdots , 5$为系统状态变量; $u$为已知的控制输入信号; $f_i $, 为需要检测的系统故障.
若要实现对该系统进行故障诊断的目的, 前提是系统具有故障可诊断性.因此, 寻找一组传感器集合, 使其检测的数据能够达到期望的故障最大可诊断性就显得尤为重要.根据文献[15], 若一组传感器集合能够使得系统故障可诊断性最大, 且没有任何该传感器集的子集能达到此目标, 则将这组传感器集合称为最小传感器集合.
1.2 传感器配置
系统(1)中$x_i $为状态变量, 用于描述系统的运动行为, 为了便于研究, 假设$x_i $为系统中可能的传感器配置, 在不考虑系统模型不确定性和外部扰动的情况下, 根据文献[15], 表 1给出了包含系统所有传感器时的故障可诊断性分析.
表 1 故障可诊断性分析Table 1 Fault diagnosability analysisFD $f_{1}$ $f_{2}$ $f_{3}$ $f_{4}$ $f_{1}$ $\times$ 0 0 $\times$ $\times$ $f_{2}$ $\times$ 0 0 $\times$ $\times$ $f_{3}$ $\times$ $\times$ $\times$ 0 $\times$ $f_{4}$ $\times$ $\times$ $\times$ $\times$ 0 表 1中, $\times$表示故障可以被分离, 0表示故障不可分离, FD列表示系统的故障可检测性, 也可理解为故障$f_i $与故障为0 (即无故障)时的故障可分离性, 从表 1可以看出, 4种故障均具有故障可检测性.其他列表示故障$f_i $和$f_j $的可分离性, $\times$为故障$f_i $和$f_j $具有可分离性, 0为故障$f_i $和不具有可分离性.表 1中故障$f_1 $和$f_2 $可与故障$f_3 $和$f_4 $分离, 但$f_1 $和$f_2 $彼此之间不能分离.故障$f_3 $和$f_4 $可与故障和$f_2 $分离, 且可以彼此分离.
文献[15]进而又给出了一种从系统结构为出发点的传感器优化配置方法, 得到系统的最小传感器集合为
$ \begin{align} \label{eq2} \{x_1 , x_3 \}, ~\{x_1 , x_4 \}, ~\{x_2 , x_3 \}, ~\{x_2 , x_4 \}, ~\{x_3 , x_4 \} \end{align} $
(2) 式(2)中的每一个集合均可使得系统的故障可诊断性最大, 它们即是系统的最小传感器集合, 但从表 1中看到, 故障可诊断性的评价也仅是定性的是与否.
1.3 面临问题
虽然式(2)中传感器集合可从系统结构的角度使得系统达到故障可诊断性最大化的目的, 然而, 在具体问题应用时还会面临以下问题.
问题1.式(2)中的传感器集合仅为故障可诊断性的定性判定, 无法定量评价其中哪一个集合下系统故障可诊断性是最优的.
问题2.式(2)中的传感器集合无法定量的评价所给定的传感器配置是否对于期望的系统故障可诊断性是足够的.
问题3. 式(2)中的传感器集合并未考虑系统可能存在的建模误差、噪声、干扰等因素的影响, 而这些不确定性因素的存在, 会对系统原有传感器下系统故障可诊断性的判定产生影响.
可见, 从故障可诊断性为出发点, 进行传感器的优化配置, 以期用最优的传感器集合达到系统故障诊断的目的, 毫无疑问故障可诊断性的量化评价是基础.基于此, 本文主要针对问题1和问题2展开研究.
2. 基于K-L散度的故障可诊断性定量评价
2.1 故障可诊断性定量评价思想的引出
考虑一类需进行故障可诊断性评价的系统
$ \begin{align} \label{eq3} & \dot {x}=g(x, u, v, f) \notag\\ & y=h(x, u, w) \end{align} $
(3) 其中, $x\in {\bf R}^n$为系统状态, $u\in {\bf R}^q$为系统输入, $y$ $\in$ ${\bf R}^m$为系统输出, $g$和$h$为非线性函数; 随机变量$v$和$w$为状态噪声和测量噪声, 且其概率密度函数已知; $f$为系统中可能存在的故障.式(3)中描述的系统为典型的非线性结构系统, 为了进行传感器优化配置研究, 在不失一般性的情况下, 式(3)可定义为系统模型或是系统结构模型.
鉴于残差是故障诊断的基础, 而常用的方法是通过比较观测系统实际输出$y$与期望输出形成残差, 基于此, 从中凝练故障特征进而对系统是否发生故障做出判断.由此将系统的残差表示为
$ \begin{align} \label{eq4} r=y-\hat {y} \end{align} $
(4) 从理论上讲, 当系统未发生故障时, 残差为零; 当系统发生故障时, 残差数据偏离零值, 以此为依据可对系统进行故障诊断.然而由于系统存在噪声等不确定性因素的影响, 当系统未发生故障时, 系统残差$r$的概率密度函数理论上应该与系统测量噪声$w$的概率密度函数相近, 若$r$与$w$的概率密度函数产生某种程度的偏差, 则可认定为系统发生故障.当系统具备对某类故障具备故障可诊断性时, 针对此类故障集合下的不同故障, 则与其对应的残差概率密度函数也显现出一定的差异性.
对系统(3), 要对其进行行之有效的故障可诊断性的量化评价, 一种可靠的方法就是通过测量不同故障情况下残差的概率密度函数的相似度和差异度, 从而达到定量描述故障的可检测性和可分离性的目的.在概率论或信息论中, K-L散度(Kullback-Leibler divergence), 又称相对熵, 是描述两个概率分布相似度和差异度的一种有效方法.因此, 当系统发生故障时, 通过借助于K-L散度方法, 对不同故障多元分布的差异性进行测量, 这无疑对于实现对动态系统进行故障可诊断性量化评价提供了一种可行的途径.
2.2 基于K-L散度进行故障可诊断性定量评价的基本原理
对于$f_i $和$f_j $这两种可能存在于系统(3)中的故障, 受其影响系统的残差特性也会产生相应的变化, 设对应的系统残差概率密度函数分布为$p_i \in Y_{f_i } $和, 其中$Y_{f_i } $与分别代表残差概率密度函数所在的集合, 若这两种概率密度函数偏差越大, 即残差的分布特性差异性越明显, 也就意味着对应的两种系统故障越容易被分离[16-17].如图 1所示, 两种不同分布集合中概率密度函数存在一定距离, 当不同的故障概率密度函数具有差异时, 其对应的图中分布集合距离就会有所区别.
为了通过距离差异度的方法对不同故障的可诊断性进行评价, 并进一步对系统故障进行有效分离, 考虑如下故障作用下残差概率密度函数的假设检验:
$ \begin{align*} \begin{cases} H_0 :p=p_j, &\mbox{原假设}\\ H_1 :p=p_i, & \mbox{备择假设}\end{cases} \end{align*} $
构造对数似然函数
$ \begin{align} \label{eq5} \lambda (r)=\log \frac{p_i (r)}{p_j (r)} \end{align} $
(5) 其中, $p_i $和$p_j $分别表示在系统故障为$f_i $与时残差的概率密度函数.在此假设检验中, 若原假设$H_0 $为真, 即假设当前的系统故障为$f_j $, 则对数似然函数的期望值${\rm E}[\lambda (r)]\le 0$; 与之相反, 若备择假设为真, 即假设当前的系统故障为$f_i $, 则对数似然函数的期望值为${\rm E}[\lambda (r)]>0$.可见, 当对符号和数值予以改变时, 在假设检验过程中, 可以通过其指示器的作用, 定量的对两种系统故障$f_i $和的困难指数表示分离, 其表达式为
$ \begin{align} \label{eq6} {\rm E}[\lambda (r)]={\rm E}\left[ {\log \frac{p_i (r)}{p_j (r)}} \right] \end{align} $
(6) 通过对式(6)右侧的观察, 发现其恰好满足K-L散度的表达式
$ \begin{align} \label{eq7} K(p_i \| p_j )= \int_{-\infty }^\infty {p_i (r)\log \frac{p_i (r)}{p_j (r)}} {\rm d}r= {\rm E}_{p_i } \left[ {\log \frac{p_i }{p_j }} \right] \end{align} $
(7) 其中, 表示在已知残差概率密度函数$p_i $时, 所得的对数似然函数期望值.而K-L散度是一种度量概率分布相似度的方法,其特性为
$ \begin{align} \label{eq8} & K(p_i \| p_j )\ge 0, \quad \mbox{若}~p_i \neq p_j\notag \\ & K(p_i \| p_j )=0, \quad \mbox{若}~p_i =p_j \end{align} $
(8) 由于$p_i $和这两种概率密度函数的K-L散度最小化与这两种概率密度函数的最大似然估计相等同[11], 这也就意味着,动态系统的故障可检测性$FD(f_i )$和可分离性可通过最小K-L散度进行量化评价,定量评价结果可通过下式得到.
$ \begin{align} &FD(f_i )=\min [K(p_i \| p_{NF} )]\notag \\ &\label{eq9} FI(f_i , f_j )=\min [K(p_i \| p_j )] \end{align} $
(9) 其中, $p_{NF} $表示系统无故障时的系统残差概率的密度函数.由于, $FD(f_i )\in (0, \infty )$, 则$FD(f_i )$越大, 表明故障$f_i $可检测性越强; 反之, 当$FD(f_i )=0$时, 表示故障不能被检测; 当系统未发生故障时,设$p_{NF} $为0.同理, , 若$FI(f_i , f_j )$越大, 表明故障$f_i $和的可分离性越明显; 反之, 当$FI(f_i , f_j )=0$时, 表明故障$f_i $和不能被分离.
综上所述, 通过求取概率密度函数的K-L散度的方法, 可实现对系统故障的可检测性和可分离性进行定量分析的目的.
2.3 基于SKDE的概率密度函数估计
分析式(7)中K-L散度的计算, 不难看出, 已知的系统残差概率密度函数是其计算的基础, 但就系统(3)而言, 残差概率密度函数并非能直接获取.一种可行的方法是运用核密度估计方法对残差概率密度函数进行估算.但是, 尽管核密度估计方法应用广泛且有效性高, 但其算法因受空间复杂度高、易造成维数灾难且小样本条件下欠缺光滑性等缺陷影响, 应用范围受到一定程度的限制.近年来出现的一种稀疏内核密度估计(Sparse kernel density estimator, SKDE) [18]方法, 不仅计算速度快、内存需求少、模型复杂度小, 而且由于其采用了正则化技术和风险最小化准则, 在小样本训练集的密度估计上较传统核密度估计算法更精确、更光滑, 恰能弥补前述方法的不足.
$D_N =\{r_i \}_{i=1}^N $是给定的有$N$个残差样本采样点的数据集, 可通过稀疏内核密度估计方法对其中未知的残差数据的概率密度函数$p(r)$进行近似求取.通过在数据集中抽取一个新的数据集$D_M =\{r_1' , r_2' , \cdots , r_M' \}$, 其中$M <N$, 则可运用以下的基于内核的概率密度估计方法求得$p(r)$:
$ \begin{align} \label{eq10} \hat {p}^{(M)}(r, \beta _M , \sigma _M )=\sum\limits_{i=1}^M {\beta _i K_{\sigma _i } (r, r_i' )} \end{align} $
(10) 其中, 取$K_{\sigma _i } (r, r_i' )$为高斯内核, $r_i' $和分别为其内核中心向量和可调整的内核宽度, 可得
$ \begin{align} \label{eq11} K_{\sigma _i } (r, r_i' )=\frac{1}{(2\pi \sigma _i^2 )^\frac{m}{2}}\exp \left( {-\frac{\| r-r_i' \| ^2}{2\sigma _i^2 }} \right) \end{align} $
(11) 其中, $\beta _i $为内核权值, , $\beta _M$ $=$ , 满足$\beta _M^{\rm T} l_M =1$, $\cdots $, $1 ]_M^{\rm T}$.
对于第$l$步的概率密度估计$\hat {z}^{(l)}(r)$, 可得
$ \begin{align} \label{eq12} \hat {z}^{(l)}(r)=\sum\limits_{i=1}^l {\beta _i^{(l)} K_{\sigma _i } (r, r_i' )} \end{align} $
(12) 其中, , $\beta _l =[\beta _1 , \beta _2 , \cdots , \beta _l ]^{\rm T}$, 通过以下算法可对概率密度函数$p(r)$进行估计.
算法1.稀疏内核密度估计算法
步骤1.由于$\beta _1^{(1)} =1$, 在$p(r)$估计的第一步, 由式(12)可得
$ \begin{align} \label{eq13} \hat {z}^{(1)}(r)=K_{\sigma _1 } (r, r_1' ) \end{align} $
(13) 步骤2.当$l\ge 2$时,即在算法运行的第$l$步, 可通过下式得到$p(r)$的估计
$ \begin{align} \label{eq14} \hat {z}^{(l)}(r)=\lambda _l \hat {z}^{(l-1)}(r)+(1-\lambda _l )K_{\sigma _l } (r, r_l' ) \end{align} $
(14) 其中, 将内核宽度调整为$\sigma _l $即可得到 [18], $0$ $\le \lambda _l \le 1$, 且$\lambda _1 =0$.
通过上述分析可得, 稀疏内核密度算法的引入为求取残差概率密度函数奠定了基础, 据此可进一步求解式(7), 进而为量化评价非线性系统故障的可诊断性提供了理论依据.
2.4 基于蒙特卡洛方法的非线性函数估计
即使已经获得了系统的残差概率密度函数, 但计算复杂度高始终是如式(7)这类典型的非线性系统结构所面临的求解难题.为了克服这一困难, 本文采用蒙特卡洛(Monte Carlo, MC)方法对其进行近似求解.
蒙特卡罗方法是一种概率模拟方法[19-20], 是通过随机变量的统计试验求解数学物理或工程技术问题的一种数值方法.为有效解决由于计算过于复杂而难以求解或者根本没有解析解的问题提供了一种有效求出数值解的途径.
因此, 对式(7)的计算可通过下式表示
$ \begin{align} \label{eq15} \hat {K}(p_i \| p_j )=\frac{1}{n_s }\sum\limits_{i=1}^{n_s } {\log \frac{\hat {p}_i (z_i )}{\hat {p}_j (z_i )}} \end{align} $
(15) 其中, 将概率密度函数$\hat {p}_i $中采样的的个数记为$n_s $.通常情况下, 估计误差满足正态分布, 其期望为0, 方差为
$ \begin{align} \label{eq16} \sigma _{MC}^2 =\frac{1}{n_s }\left( {{\rm E}\left[ {\log \left( {\frac{\hat {p}_i (z_i )}{\hat {p}_j (z_i )}} \right)} \right]^2} \right) \end{align} $
(16) 即估计误差满足分布$\tilde {r}\sim {\rm N}(0, \sigma _{MC}^2 )$, 根据蒙特卡洛方法的特点, 采样个数$n_s $越大, 运用蒙特卡洛方法对其估计的误差就会越小.
通过将蒙特卡洛方法与已知系统残差概率密度函数相结合, 从而实现对式(7)的近似求解, 进而达到对非线性系统故障可检测性和可分离性进行量化评价的目的.
3. 基于故障可诊断性量化评价的传感器优化配置
3.1 最小传感器集合下的系统故障可诊断性分析
采用第1.1节中的例子, 在此系统结构模型下进行故障可检测性和可分离性的量化评价.考虑式(2)中的最小传感器集合$\{x_1 , x_3 \}$, 运用第2.2节中基于K-L散度的故障可诊断性量化评价方法进行评价分析, 定量评价结果如表 2所示.
表 2 故障可诊断性量化评价Table 2 Quantitative evaluation of fault diagnosability$\{x_1, x_3\}$ FD $f_{1}$ $f_{2}$ $f_{3}$ $f_{4}$ $f_{1}$ 0.036 0 0 0.058 0.061 $f_{2}$ 0.054 0 0 0.099 0.054 $f_{3}$ 0.008 0.051 0.074 0 0.116 $f_{4}$ 0.093 0.059 0.053 0.129 0 从表 2可以看出: 1) 0值出现的位置与表 1中0值出现的位置一致, 即针对故障可检测性评价, 定性分析和定量分析的评价结论一致. 2) 4种故障均具有可检测性, 4种故障均可被检测, 用量化指标表示, 故障的可检测性最小值为0.008, 最大值为0.093, 可检测性从高到低的排序为. 3) 4种故障除故障$f_1 $和外, 均可被分离, 但可分离性结果不对称, 即, 4种故障模式的可分离性也大小不一.例如, 故障与$f_4 $可分离性量化指标分别为0.116, 可分离性较强; 故障与$f_4 $之间的可分离性量化指标为0.054, 可分离性较弱.
若考虑的最小传感器集合为$\{x_2 , x_4 \}$, 则系统故障可诊断性的量化评价如表 3所示.
表 3 故障可诊断性量化评价Table 3 Quantitative evaluation of fault diagnosability$\{x_{2}, x_{4} \}$ FD $f_{1}$ $f_{2}$ $f_{3}$ $f_{4}$ $f_{1}$ 0.055 0 0 0.089 0.083 $f_{2}$ 0.086 0 0 0.098 0.063 $f_{3}$ 0.122 0.133 0.126 0 0.285 $f_{4}$ 0.232 0.080 0.059 0.180 0 对比表 3和表 2可以看出, 使用最小传感器集合$\{x_2 , x_4 \}$时, 较最小传感器集合$\{x_1 , x_3 \}$而言, 不仅故障可检测性发生了变化, 而且可分离性也发生了变化.对于式(2)中的其他最小传感器集合, 运用上文所述的故障可诊断性量化评价方法, 亦可得到类似的结论.
通过对这一实例进行系统故障可诊断性的定量分析发现, 式(2)中的任何一个最小传感器集合, 对实例中给定故障均存在不可分离的故障、或故障可检测性水平低、或故障可分离性指标过小的问题, 也即均无法达到对所有给定故障实现故障可诊断的目的, 换言之, 文献[15]的最小传感器集合并不能使所有故障均具有理想的故障可诊断性.造成这种结果的原因有两个方面: 1)系统自身配置的传感器数目和位置无法达到分离所有故障的目的是由系统自身结构而对应的传感器配置决定的.从故障可诊断性量化评价指标中可以发现其原因, 并在设计阶段加以改进. 2)由于传感器集合未做出合理的优化配置, 以致故障可检测性或可分离性评价指标低.可以使用优化算法选取最佳的传感器组合, 使得系统故障可诊断性量化评价指标增加.
3.2 传感器的优化配置问题
针对模型(3)的非线性系统, 假设系统所有的传感器集合为$T$, 每一个传感器$s\in T$都有具体的安装位置和可测的噪声.为了满足系统故障可诊断性最大化的要求, 假定选取的传感器集合为$S\subseteq T$, 则可通过计算给定传感器集合$S$时故障$f_i $和故障的可分离性$K^S(p_i \| p_j )$, 最终找到使得对每一对故障具有最大可分离性的最小的传感器集合$S$.
可见, 传感器最小集合优化选取问题就是传感器的优化配置问题, 亦可转换为如下的优化问题:
$ \begin{align} \label{eq17} & \mathop {\min }\limits_{S\subseteq T} h(s) \notag\\ & {\rm s.t.}\quad K^S(p_i \| p_j )\ge K^{\rm req}(p_i \| p_j ) \end{align} $
(17) 其中, $S\subseteq T$为给定的传感器集合, $h(s)$为代价函数, 为给定传感器集合$S$时故障$f_i $和故障的可分离性量化指标, 为传感器集合为满足系统故障可诊断性必需的传感器集合时, 故障和故障$f_j $的可分离性量化指标.代价函数$h(s)$定义为
$ \begin{align} \label{eq18} h(s)=\sum\limits_{s\in S} {\cos t(} s) \end{align} $
(18) 代价函数选取方式有很多种, 在这里可以定义为所选取传感器, 即当时, $\cos t(s)=1$.
由此将传感器的优化配置问题转化为对优化问题(17)的求解.对一个较小的系统, 例如第1.1节所述的系统, 传感器数目较少, 可以使用全局搜索的方法寻找式(17)的最优解, 即可得到系统具有最大故障可诊断性的传感器最优配置.
但是, 现代工业系统往往比较庞大, 传感器数目众多, 在大系统中使用全局搜索寻找最优的传感器集合计算量很大, 给传感器最优集合的选取带来困难.例如系统若有$k$个传感器, 传感器的集合将有$2^k$个.因此, 选取适当的优化算法进行传感器配置的优化计算势在必行.
4. 基于动态规划的故障诊断系统传感器优化配置算法
动态规划是运筹学的一个分支, 是解决多阶段决策过程最优化问题的一种方法[21-22].动态规划研究的多阶段决策问题是指这样一类决策过程:它可以分为若干个互相联系的阶段, 在每一阶段分别对应着一组可以选取的决策, 当每个阶段的决策选定以后, 过程也就随之确定.把各个阶段的决策综合起来, 构成一个决策序列, 称为一个策略.显然由于各个阶段选取的决策不同, 对应整个过程就可以有一系列不同的策略.
在实际工程系统中, 期许的故障可诊断性在得到传感器优化配置最优策略前, 传感器的配置数量并不清楚.因此, 传感器的优化配置问题属于阶段不确定型的动态规划问题.但由于系统初始状态下, 传感器所能配置的位置和数量有限, 因此选择所需配置的传感器集合作为阶段数.
在第$k$阶段, 传感器的配置方式有多种情形, 这里选取每种传感器的配置方式及传感器集合称为传感器优化配置的一个状态.状态即是第$k$阶段传感器优化配置的起点, 也是第$k-1$阶段传感器优化配置的终点, 且其满足动态规划优化过程中的无后效性要求.
在已知过程状态为传感器集合$S_k $的前提下, 可得过程的状态转移方程为
$ \begin{align}\label{eq19} S_k =S_{k-1} \cup \{x_i \}, ~~~~~ x_i \notin S_{k-1}, ~ i=1, 2, \cdots , N \end{align} $
(19) 其中, $N$为系统传感器总数, $x_i $为增加的某一特定传感器.
传感器的优化配置问题, 可转化为如下的动态规划问题:
$ \begin{align} \label{eq20} & f_{k+1} (S_{k+1} )=\mathop {\max }\limits_{i=1:N} f_k (S_k \cup x_i ) \notag\\ & {\rm s.t.}\quad K^S(p_i \| p_j )\ge K^{\rm req}(p_i \| p_j ) \end{align} $
(20) 其中, $f$为K-L散度的求解函数.
为了实现传感器动态优化配置的目的, 假设传感器配置过程中每一阶段的状态数为$M(k)$, 其中$k$为阶段数, 则优化任务可通过如下的动态规划算法实现.
算法2.传感器优化配置动态规划算法
步骤1.令初始状态下故障可诊断性的量化指标为0, 即当$k=0$时$f_0 (S_0 )=0$;
步骤2.计算第$k$阶段的目标函数$f_k (S_k )$, 进而确定$f_{k+1} (S_{k+1} )$;
步骤3.若满足, 则计算停止, 转到步骤4, 否则$k=k+1$, 并转到步骤2;
步骤4. $S_k $即为优化所得的最佳传感器集合, 从第$k$阶段向前可确定传感器配置的最佳位置以及类型;
步骤5.输出结果.
5. 仿真分析
5.1 仿真案例1:非线性数值仿真系统
为了验证本文方法的有效性与可行性, 假设某一非线性系统的数学模型为
$ \begin{align} \label{eq21} & \dot {x}_1 =-2x_1^2 +x_2 +x_5 \notag\\ & \dot {x}_2 =-2x_2 x_3 +x_4 \notag\\ & \dot {x}_3 =-3x_1^2 +x_5 +f_1 +f_2\notag\\ & \dot {x}_4 =-4x_4 +x_5 +f_3 \notag\\ &\dot {x}_5 =-5x_5 +u+f_4 \end{align} $
(21) 其中, $x_i $, $i=1, 2, \cdots , 5$为系统状态变量, $u$为已知的控制输入信号, $f_i =0.2\sin (2t)$, $i=1, 2, 3, 4$为需要检测的系统故障.
假设$x_i $, $i=1, 2, \cdots , 5$为系统中可能的传感器配置, 当该系统选用$\{x_1 , x_2 , x_3 , x_4 , x_5 \}$为传感器集合时, 运用K-L散度方法, 对系统(21)中可能存在的4种故障进行故障可诊断性量化评价, 所得评价结果如表 4所示.
表 4 非线性系统故障可诊断性量化评价Table 4 Quantitative evaluation of fault diagnosability for nonlinear systemsFD $f_{1}$ $f_{2}$ $f_{3}$ $f_{4}$ $f_{1}$ 0.660 0 0 1.412 1.564 $f_{2}$ 0.671 0 0 1.273 2.229 $f_{3}$ 1.532 1.518 1.936 0 0.330 $f_{4}$ 1.510 1.617 2.520 0.202 0 从表 4可以看出: 1)系统(21)中4种故障均可被检测, 用量化指标表示, 故障$f_1 $的故障可检测性量化指标最小, 为0.660, 故障$f_3 $的故障可检测性量化指标最大, 为1.532; 2) 4种故障中故障与$f_2 $不可被分离, 除此之外, 其他故障均可被分离, 且故障可分离性量化指标大小不一.
表 4中所得的故障可诊断性量化水平, 是在系统选用了最大传感器集合时的评价结果.然而, 使系统故障可诊断性具有期望的水平并非需要全部传感器.通过运用第4节的动态规划方法可进行传感器的优化配置, 优化过程如图 2所示.
从图 2可以看出, 若将系统选用可配置的所有传感器所得的故障可诊断性设为100 %, 则选用传感器为1个、2个、3个、4个时, 故障可诊断性量化评价指标可分别达到最大值的4.3 %, 23.9 %, 66.97 %, 71.04 %.
若以系统故障可诊断性量化指标的60 %为期许值选取最优传感器集合, 通过前述的优化方法可得, 系统所需的最优传感器集合为, 其故障可诊断性量化评价如表 5所示.
表 5 非线性系统故障可诊断性量化评价Table 5 Quantitative evaluation of fault diagnosability for nonlinear systems{$x_{2}$, $x_{3}$, $x_{4}$} FD $f_{1}$ $f_{2}$ $f_{3}$ $f_{4}$ $f_{1}$ 0.460 0 0 1.142 0.465 $f_{2}$ 0.423 0 0 1.103 1.110 $f_{3}$ 1.067 1.174 1.248 0 0.143 $f_{4}$ 1.028 0.379 1.039 0.156 0 与表 5相比可以看出, 尽管故障可检测性和故障可分离性量化指标均在一定程度上减小, 但却没有改变系统故障可检测性和可分离性的本质属性, 且在量化指标上满足系统故障可诊断性的预设性能要求, 并且从系统成本而言, 减少了两个传感器的投入.
若对第1.1节中线性系统采用同样的方法进行传感器的优化配置, 同样可得到系统的最优传感器集合为$\{x_1 , x_2 , x_4 \}$.可见, 文中所述方法对于线性系统和非线性系统均有效可行.
5.2 仿真案例2:车辆电源系统
以120 kW的某军用车辆电源为仿真对象, 其核心组成是柴油发电机组, 结构如图 3所示.在野外作战条件下, 车辆电源不仅是现代武器装备主要的能量来源, 也为日常用电提供了安全可靠的生活保障.主要包括:汽车底盘、降噪厢体、120 kW柴油发电机组及其控制系统等.柴油机为康明斯NT855-GA、电子调速器为美国Cummins、同步发电机为斯坦福UCI274F、电压调节器为MX321的励磁控制系统.各模块之间的关系如图 4所示, 其中, 向量$U$为发电机$d$轴和$q$轴电压, $I$为发电机$d$轴和$q$轴电流, $U_{f}$为励磁电压, $P_{m}$为发电机机械功率, $n$为发电机转速, 发电机的额定输出电压为400 V.
根据120 kW车辆电源系统出厂测试实验需带负载的相关资料, 在理论分析的基础上, 以分块建模的方法建立车辆电源及各类负载的数学与仿真模型; 接着利用仿真实验与实体实验数据比对的方法, 通过参数整定和引入边界约束等, 最终在Matlab/ Simulink平台建立120 kW车辆电源仿真系统.
表 6给出了车辆电源系统运行过程中可能发生的一些故障类型.
表 6 车辆电源常见故障描述Table 6 Common fault description of vehicle power supply故障 故障描述 $f_{1}$ 发电机失磁 $f_{2}$ 柴油滤清器堵塞 $f_{3}$ 调速器调节失灵 $f_{4}$ 发动机高温 $f_{5}$ 系统超载 $f_{6}$ 励磁模块故障 $f_{7}$ 喷油嘴故障 利用传感器检测系统的状态量, 通过判断其是否发生异常来判断系统是否发生故障.本例中将实际能检测的系统状态变量均视为系统可能的传感器配置点, 可得系统中传感器检测的数据有:电压$(V)$、电流$(I)$、温度$(T)$、功率因数$(\varphi )$、频率$(F)$、负荷$(P)$及速度$(V_s )$等7个.
为了达到对系统故障诊断的目的, 根据上述测得的传感器数据可定义7种残差变量: $r_i $, $i=1, 2$, , $7$.结合表 5中描述的故障, 建立故障特征库, 可采用故障特征矩阵表征故障对残差的影响.若采用"二值法" $\{1, 0\}$描述残差的变化, "0"表示故障对残差没有影响; "1"表示故障使得残差数值发生了偏离.通过对7种故障进行检测可得系统故障特征描述矩阵如表 7所示.
表 7 故障可诊断性定性评价Table 7 Qualitative evaluation of fault diagnosability$r_{1}$ $r_{2}$ $r_{3}$ $r_{4}$ $r_{5}$ $r_{6}$ $r_{7 }$ $f_{1}$ 0 0 0 1 0 1 0 $f_{2}$ 0 0 0 0 0 1 0 $f_{3}$ 1 0 0 0 1 0 1 $f_{4}$ 0 0 1 0 0 1 0 $f_{5}$ 0 1 1 0 0 0 0 $f_{6}$ 1 1 0 0 0 1 0 $f_{7}$ 0 0 0 0 0 1 0 表 7中对故障引起系统残差的变化进行了定性分析, 为了对车辆电源可能存在的7种故障进行故障可诊断性定量分析, 并进一步进行传感器的优化配置, 先使用K-L散度方法进行故障可诊断性的量化评价, 结果如表 8所示.比较表 7的定性分析和表 8的定量分析结果可知, 所得的故障可诊断性评价的结论一致: 1)所有的7种故障均可被检测; 2)在所有的7种可被检测的故障中, 故障$f_2 $和$f_7 $不可被相互分离.
表 8 故障可诊断性量化评价Table 8 Quantitative evaluation of fault diagnosabilityFD $f_{1}$ $f_{2}$ $f_{3}$ $f_{4}$ $f_{5}$ $f_{6}$ $f_{7 }$ $f_{1}$ 0.3462 0 0.1298 0.8978 0.1290 0.1432 0.2765 0.0988 $f_{2}$ 0.4387 0.1304 0 0.8070 0.9908 0.1435 0.2787 0 $f_{3}$ 0.2122 0.9029 0.7865 0 0.7434 0.4634 0.4172 0.8432 $f_{4}$ 0.3456 0.1300 0.8990 0.7321 0 0.6432 0.7432 0.8432 $f_{5}$ 0.6783 0.1765 0.1543 0.4764 0.7325 0 0.3434 0.1088 $f_{6}$ 0.5435 0.2910 0.2898 0.4278 0.7000 0.3299 0 0.5898 $f_{7}$ 0.7646 0.0910 0 0.1022 0.7853 0.0987 0.5786 0 在本仿真案例中, 虽然检测了7个状态变量, 即选取了7个传感器配置点, 然而7种故障的检测可能并非需要全部7个检测值, 进一步采用第4节中基于动态规划的传感器配置方法进行优化分析, 其过程与结果如图 5所示.
从图 5可以看出, 为了达到故障最大可诊断性的60 %, 检测全部所有的7种故障所需的检测量为$\{V$, $I$, $T$, $F\}$, 即只需配置输出电压、输出电流、发动机温度和电压频率等4个传感器, 这也进一步揭示出文中方法在实际系统中的有效性与可行性.
6. 结论与展望
故障可诊断性的研究主要包括故障可诊断性评价与故障可诊断性设计两个方面:本文以故障可诊断性的量化评价为基础, 研究了系统传感器优化配置问题.虽然文中所述方法对于线性或是非线性系统, 都可从故障可诊断性量化评价的角度出发, 通过优化获取传感器的最佳配置集合, 使得系统故障可诊断性达到期望的目标, 但对以下的三个问题还有待深入研究.
1) 对于已知模型结构的故障系统, 系统需要配置多少个传感器, 才能使得系统所有可能发生的故障均具有故障可检测性和可分离性, 当系统已知的传感器不足时, 应该将传感器配置在何处及配置的数量是多少.
2) 文中案例研究中对最优传感器集合的选取标准为最优传感器的故障可诊断性量化指标达到系统最大故障可诊断性量化指标的60 %, 这个指标应该是多少才是系统最佳的量化指标?
3) 当系统受到噪声、扰动等不确定性因素影响时, 残差不仅是对故障信息的反映.此时, 残差的概率密度函数乃至故障可诊断性的量化指标都会发生相应变化, 这些变化会对系统故障可诊断性造成什么影响, 传感器的最佳配置集合是否会发生变化.
这些问题的存在, 不仅涉及系统故障可诊断性评价的问题, 更深层次的是需要考虑如何综合系统的故障可诊断性评价和故障可诊断性设计, 使得在系统设计之初, 就将故障的可诊断性作为系统的本征性能纳入系统设计之中, 进而为系统的安全可靠运行提供有力保障, 这将是一个很有意义的课题, 也是我们下一步的努力方向.
-
表 1 数据集
Table 1 Dataset
Dataset Number of attributes Type of attributes Size Number of class KDDCUP99 42 Nominal, Numeric 5 209 460 23 Record Linkage 12 Numeric 4 587 620 2 Heterogeneity Activity 7 Numeric 13 062 475 7 表 2 EGODT的基分类器间的不合度量
Table 2 The disagreement measure between base classifiers of EGODT
GODT $c$1 $c$2 $c$3 $c$4 $c$5 $c$6 $c$7 $c$8 $c$9 $c$10 $c$1 0 0.43 0.52 0.55 0.51 0.41 0.43 0.43 0.41 0.48 $c$2 0 0.51 0.46 0.6 0.32 0.29 0.39 0.29 0.6 $c$3 0 0.24 0.24 0.56 0.6 0.56 0.6 0.52 $c$4 0 0.35 0.66 0.56 0.67 0.55 0.73 $c$5 0 0.53 0.64 0.52 0.57 0.58 $c$6 0 0.41 0.19 0.13 0.37 $c$7 0 0.12 0.19 0.68 $c$8 0 0.2 0.64 $c$9 0 0.6 $c$10 0 表 3 EC45的基分类器间的不合度量
Table 3 The disagreement measure between base classifiers of EC45
C4.5 $c$1 $c$2 $c$3 $c$4 $c$5 $c$6 $c$7 $c$8 $c$9 $c$10 $c$1 0 0.31 0.44 0.44 0.35 0.3 0.31 0.31 0.29 0.35 $c$2 0 0.48 0.48 0.53 0.11 0.09 0.09 0.09 0.53 $c$3 0 0.02 0.53 0.55 0.53 0.52 0.51 0.55 $c$4 0 0.52 0.55 0.53 0.53 0.53 0.54 $c$5 0 0.48 0.51 0.53 0.49 0.04 $c$6 0 0.08 0.09 0.07 0.47 $c$7 0 0.02 0.07 0.53 $c$8 0 0.08 0.54 $c$9 0 0.49 $c$10 0 表 4 ECart-LC的基分类器间的不合度量
Table 4 The disagreement measure between base classifiers of ECart-LC
Cart-LC $c$1 $c$2 $c$3 $c$4 $c$5 $c$6 $c$7 $c$8 $c$9 $c$10 $c$1 0 0.39 0.31 0.31 0.3 0.37 0.46 0.46 0.32 0.32 $c$2 0 0.22 0.22 0.36 0.57 0.48 0.47 0.48 0.6 $c$3 0 0 0.15 0.61 0.5 0.5 0.5 0.5 $c$4 0 0.15 0.61 0.5 0.5 0.5 0.5 $c$5 0 0.46 0.52 0.52 0.39 0.39 $c$6 0 0.57 0.57 0.2 0.16 $c$7 0 0 0.38 0.5 $c$8 0 0.38 0.5 $c$9 0 0.12 $c$10 0 表 5 EHoeffdingTree的基分类器间的不合度量
Table 5 The disagreement measure between base classifiers of EHoeffdingTree
HoeffdingTree $c$1 $c$2 $c$3 $c$4 $c$5 $c$6 $c$7 $c$8 $c$9 $c$10 $c$1 0 0.26 0.53 0.54 0.38 0.3 0.36 0.31 0.24 0.47 $c$2 0 0.42 0.47 0.2 0.18 0.12 0.16 0.1 0.32 $c$3 0 0.45 0.45 0.43 0.58 0.58 0.46 0.45 $c$4 0 0.52 0.44 0.45 0.5 0.47 0.51 $c$5 0 0.54 0.57 0.56 0.58 0.07 $c$6 0 0.08 0.15 0.14 0.51 $c$7 0 0.19 0.12 0.58 $c$8 0 0.25 0.57 $c$9 0 0.56 $c$10 0 -
[1] 朱群, 张玉红, 胡学钢, 李培培.一种基于双层窗口的概念漂移数据流分类算法.自动化学报, 2011, 37(9):1077-1084 doi: 10.3724/SP.J.1004.2011.01077Zhu Qun, Zhang Yu-Hong, Hu Xue-Gang, Li Pei-Pei. A double-window-based classification algorithm for concept drifting data streams. Acta Automatica Sinica, 2011, 37(9):1077-1084 doi: 10.3724/SP.J.1004.2011.01077 [2] Wu X D, Zhu X Q, Wu G Q, Ding W. Data mining with big data. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(1):97-107 doi: 10.1109/TKDE.2013.109 [3] 孙大为, 张广艳, 郑纬民.大数据流式计算:关键技术及系统实例.软件学报, 2014, 25(4):839-862 http://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201404011.htmSun Da-Wei, Zhang Guang-Yan, Zheng Wei-Min. Big data stream computing:technologies and instances. Journal of Software, 2014, 25(4):839-862 http://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201404011.htm [4] Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 1997, 55(1):119-139 doi: 10.1006/jcss.1997.1504 [5] Breiman L. Bagging predictors. Machine Learning, 1996, 24(2):123-140 [6] Zhang P, Zhou C, Wang P, Gao B J, Zhu X Q, Guo L. E-tree:an efficient indexing structure for ensemble models on data streams. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(2):461-474 doi: 10.1109/TKDE.2014.2298018 [7] Blaser R, Fryzlewicz P. Random rotation ensembles. Journal of Machine Learning Research, 2016, 17(4):1-26 [8] Street W N, Kim Y. A streaming ensemble algorithm (SEA) for large-scale classification. In: Proceedings of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA: ACM, 2001. 377-382 [9] Bifet A, Holmes G, Pfahringer B, Kirkby R, Gavaldá R. New ensemble methods for evolving data streams. In: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Paris, France: ACM, 2009. 139-148 [10] Polat K, Güneş. A novel hybrid intelligent method based on C4.5 decision tree classifier and one-against-all approach for multi-class classification problems. Expert Systems with Applications, 2009, 36(2):1587-1592 doi: 10.1016/j.eswa.2007.11.051 [11] Wozniak M. A hybrid decision tree training method using data streams. Knowledge and Information Systems, 2011, 29(2):335-347 doi: 10.1007/s10115-010-0345-5 [12] Abdulsalam H, Skillicorn D B, Martin P. Classification using streaming random forests. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(1):22-36 [13] Bifet A, Frank E, Holmes G, Pfahringer B. Ensembles of restricted hoeffding trees. ACM Transactions on Intelligent Systems and Technology (TIST), 2012, 3(2):Article No. 30 [14] Ahmad A, Brown G. Random projection random discretization ensembles-ensembles of linear multivariate decision trees. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(5):1225-1239 doi: 10.1109/TKDE.2013.134 [15] 毛国君, 胡殿军, 谢松燕.基于分布式数据流的大数据分类模型和算法.计算机学报, 2017, 40(1):161-175 doi: 10.11897/SP.J.1016.2017.00161Mao Guo-Jun, Hu Dian-Jun, Xie Song-Yan. Models and algorithms for classifying big data based on distributed data streams. Chinese Journal of Computers, 2017, 40(1):161-175 doi: 10.11897/SP.J.1016.2017.00161 [16] Quinlan J R. Induction of decision trees. Machine Learning, 1986, 1(1):81-106 [17] Quinlan J R. C4. 5: Programs for Machine Learning. San Mateo, CA, USA: Morgan Kaufmann, 1993. [18] Breiman L, Friedman J H, Olshen R A, Stone C J. Classification and Regression Trees. Belmont, CA, USA:CRC Press, 1984. [19] Brodley C E, Utgoff P E. Multivariate decision trees. Machine Learning, 1995, 19(1):45-77 [20] Ferri C, Flach P A, Hernández-Orallo J. Improving the AUC of probabilistic estimation trees. In: Proceedings of the 2003 European Conference on Machine Learning. Berlin, Heidelberg, Germany: Springer, 2003. 121-132 [21] Mingers J. An empirical comparison of pruning methods for decision tree induction. Machine Learning, 1989, 4(2):227-243 doi: 10.1023/A:1022604100933 [22] Esposito F, Malerba D, Semeraro G, Kay J. A comparative analysis of methods for pruning decision trees. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(5):476-491 [23] Fournier D, Crémilleux B. A quality index for decision tree pruning. Knowledge-Based Systems, 2002, 15(1-2):37-43 doi: 10.1016/S0950-7051(01)00119-8 [24] Osei-Bryson K M. Post-pruning in decision tree induction using multiple performance measures. Computers and Operations Research, 2007, 34(11):3331-3345 [25] Elomaa T, Kääriäinen M. An analysis of reduced error pruning. Journal of Artificial Intelligence Research, 2001, 15(1):163-187 [26] Quinlan J R. Simplifying decision trees. International Journal of Man-Machine Studies, 1987, 27(3):221-234 doi: 10.1016/S0020-7373(87)80053-6 [27] 包研科, 赵凤华.多标度数据轮廓相似性的度量公理与计算.辽宁工程技术大学学报(自然科学版), 2012, 31(5):797-800 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=lngcjsdxxb201205053Bao Yan-Ke, Zhao Feng-Hua. Measure axiom of outline similarity of multi-scale data and its calculation. Journal of Liaoning Technical University (Natural Science), 2012, 31(5):797-800 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=lngcjsdxxb201205053 [28] Bache K, Lichman M. UCI machine learning repository[Online], available: http://archive.ics.uci.edu/ml, January 1, 2016 [29] Stisen A, Blunck H, Bhattacharya S, Prentow T S, Kjaergaard M B, Dey A, Sonne T, Jensen M M. Smart devices are different: assessing and mitigating mobile sensing heterogeneities for activity recognition. In: Proceedings of the 13th ACM Conference on Embedded Networked Sensor Systems. Seoul, South Korea: ACM, 2015. 127-140 [30] Zhou Z H. Ensemble Methods: Foundations and Algorithms. Boca Raton, FL, USA: Chapman and Hall/CRC, 2012. 期刊类型引用(16)
1. 杨晓波,李颖,魏子睿. 基于JSP技术的高压客户业扩报装系统. 自动化技术与应用. 2022(09): 79-82 . 百度学术
2. 袁智勇,肖泽坤,于力,徐全,林跃欢,李培强,何西. 智能电网大数据研究综述. 广东电力. 2021(01): 1-12 . 百度学术
3. 付维明,秦家虎,朱英达. 基于扩散方法的分布式随机变分推断算法. 自动化学报. 2021(01): 92-99 . 本站查看
4. 龚健虎,张跃进. 深度AWB结合改进DIT的高效大数据分类. 计算机工程与设计. 2021(02): 468-474 . 百度学术
5. 徐军委,刘长胜. 基于人工智能和深度数据分析技术的考评系统设计. 电子设计工程. 2021(06): 179-183 . 百度学术
6. 薛岩. 克苏鲁式数据结构模型理论. 科技创新与应用. 2021(15): 23-25 . 百度学术
7. 张宇,刘威,邵良杉. 面向分布式在线学习的共享数据方法. 控制与决策. 2021(08): 1871-1880 . 百度学术
8. 尹春勇,张帼杰. 面向分布式漂移数据流的集成分类模型. 计算机应用. 2021(07): 1947-1955 . 百度学术
9. 赖红清. 基于逻辑回归的企业二次创业金融数据分类方法研究. 重庆工商大学学报(自然科学版). 2021(05): 114-119 . 百度学术
10. 唐雅娜,袁琛. 基于邻域相似的大数据流滞后相关性挖掘仿真. 计算机仿真. 2020(06): 318-321+337 . 百度学术
11. 钟章生,陈世炉,陈志龙. 利用并行惯性权重OOL-FA的大数据分类. 计算机工程与设计. 2020(10): 2818-2824 . 百度学术
12. 王金焱. 分布式网络混合云数据分类捕获方法研究. 安阳工学院学报. 2020(06): 59-62+74 . 百度学术
13. 吴增源,周彩虹,刘畅,郑素丽. 基于不平衡大数据的CS-AdaBoost-DT模型在家电产品质检中的应用. 工业工程与管理. 2020(05): 42-49 . 百度学术
14. 袁焦,王珣,潘兆马,杨学锋,邹文露. 基于机器学习的列车设备故障预测模型研究. 计算机与现代化. 2020(12): 49-54 . 百度学术
15. 李晓峰,李东. 基于SOM聚类的多模态医学图像大数据挖掘算法. 西安工程大学学报. 2019(04): 462-467 . 百度学术
16. 王艳,蒋天伦. 融合决策树的分布式多工厂协同生产调度方法. 系统仿真学报. 2019(11): 2181-2197 . 百度学术
其他类型引用(11)
-