2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于不确定性的多元时间序列分类算法研究

张旭 张亮 金博 张红哲

张旭, 张亮, 金博, 张红哲. 基于不确定性的多元时间序列分类算法研究. 自动化学报, 2023, 49(4): 790−804 doi: 10.16383/j.aas.c210302
引用本文: 张旭, 张亮, 金博, 张红哲. 基于不确定性的多元时间序列分类算法研究. 自动化学报, 2023, 49(4): 790−804 doi: 10.16383/j.aas.c210302
Zhang Xu, Zhang Liang, Jin Bo, Zhang Hong-Zhe. Uncertainty-based multivariate time series classification. Acta Automatica Sinica, 2023, 49(4): 790−804 doi: 10.16383/j.aas.c210302
Citation: Zhang Xu, Zhang Liang, Jin Bo, Zhang Hong-Zhe. Uncertainty-based multivariate time series classification. Acta Automatica Sinica, 2023, 49(4): 790−804 doi: 10.16383/j.aas.c210302

基于不确定性的多元时间序列分类算法研究

doi: 10.16383/j.aas.c210302
基金项目: 国家自然科学基金 (61772110), 辽宁省教育厅科学研究经费 (LJKZ1045), 上海市卫生和计划生育委员会科研课题(20184Y0247)资助
详细信息
    作者简介:

    张旭:大连理工大学机械工程学院硕士研究生. 主要研究方向为机器学习, 数据挖掘与应用. E-mail: zhangxu1@mail.dlut.edu.cn

    张亮:东北财经大学国际商学院讲师. 主要研究方向为多元时间序列挖掘, 医疗健康大数据. 本文通信作者. E-mail: liang.zhang@dufe.edu.cn

    金博:大连理工大学创新创业学院教授. 主要研究方向为信息检索, 数据挖掘和智能计算. E-mail: jinbo@dlut.edu.cn

    张红哲:大连理工大学机械工程学院副教授. 主要研究方向为工业大数据的挖掘与应用. E-mail: zhanghongzhe@dlut.edu.cn

Uncertainty-based Multivariate Time Series Classification

Funds: Supported by National Natural Science Foundation of China (61772110), Scientific Research Project of the Education Department of Liaoning Province (LJKZ1045), and Scientific Research Project of Shanghai Health and Family Planning Commission (20184Y0247)
More Information
    Author Bio:

    ZHANG Xu Master student at the Mechanical Engineering College, Dalian University of Technology. His research interest covers machine learning, data mining and applications

    ZHANG Liang Lecturer at the International Business College, Dongbei University of Finance and Economics. His research interest covers multivariate time series mining and healthcare big data analytics. Corresponding author of this paper

    JIN Bo Professor at the School of Innovation and Entrepreneurship, Dalian University of Technology. His research interest covers information retrieval, data mining, and intelligent computing

    ZHANG Hong-Zhe Associate professor at the Mechanical Engineering College, Dalian University of Technology. Her research interest covers industrial big data mining and application

  • 摘要: 多元时间序列(Multivariate time series, MTS)分类是许多领域中的重要问题, 准确的分类结果可以有效地帮助决策. 当前的MTS分类算法在个体的表征学习阶段难以自动建模多元变量之间复杂的交互关系, 并且无法评估分类结果的可信度, 这会导致模型性能受限, 以及缺乏具备统计意义的可靠性解释. 本文提出了一种基于不确定性的多元时间序列分类算法, 变分贝叶斯共享图神经网络, 即VBSGNN (Variational Bayes shared graph neural network). 首先通过图神经网络(Graph neural network, GNN)提取多元变量之间的交互特征, 然后利用贝叶斯神经网络(Bayesian neural network, BNN)为预测过程引入了不确定性. 最后在10个公开MTS数据集上进行了算法实验, 并与当前提出的7类算法进行了比较, 结果表明VBSGNN可有效学习多元变量之间的交互关系, 提升了分类效果, 并使得模型具备一定的可靠性评估能力.
  • 医疗器械的信号记录等多元时间序列, 也称为MTS (Multivariate time series), 数据广泛存在于现实生活中, 有效利用这些数据可以提高生产效率及经济收益[1-3]. 尤其是多元时间序列分类, 也称为MTSC (Multivariate time series classification), 问题受到了广泛的关注[4]. 多元时间序列分类模型被用于基于脑电图, 也称为EEG (Electroencephalogram)或心电图, 也称为ECG (Electrocardiogram) 的疾病预测[5]和运动识别[6-7]等.

    目前学者们提出了许多MTS分类算法. 例如基于最近邻算法的动态时间规划[8]和基于特征的隐藏单元逻辑回归模型[9]成功应用于许多MTS基准数据集的分类预测, 但是这些方法需要经过大量的数据预处理和特征工程设计过程. 最近, 基于深度学习的方法[4, 10-11]在时间序列分类任务中取得了较好的效果. 这些方法可以通过卷积或递归操作有效地学习MTS的低维个体特征表示, 但是无法对MTS变量之间复杂的交互关系进行建模, 从而影响最终的模型效果. 虽然毛文涛等[12]提出了基于异常序列剔除的多变量时间序列结构化预测方法, 考虑了多元变量时间的依赖关系, 但是该方法依赖于复杂的特征处理过程.

    图是一种特殊的数据形式, 由不同的节点(实体)组成, 它描述了不同节点之间的关系. 图神经网络, 又称为GNN (Graph neural network), 可以聚合图数据中相邻节点的特征信息, 获得表达能力更强的实体表征[13-14]. 多元时间序列数据也可以从图结构角度来处理, 可以将多元时间序列中的变量视为图结构中的节点, 并且它们通过一定的交互关系产生连接. 因此, 利用图神经网络对多元时间序列数据进行建模是一种既考虑变量之间的交互关系又同时保留相应原始时间轨迹的有效方法[15-16]. 由于多元时间序列数据并没有显式的图结构, 因而如何建立合适的图结构是首先需要解决的问题. 有的方法依赖于计算复杂度较高的自注意力机制建立图结构[15], 有的依赖于精心设计的多层神经网络来建立图结构[16], 还有的利用传统距离度量(例如点积、欧氏距离等)建立图结构的形式[17], 时间和空间复杂度较高[16]. 目前有学者提出了“共生变量对”[18]的思想, 即在多元时间序列中出现在同一个批量样本和时间步上两个非零变量为“共生变量对”, 两个变量之间会互相影响, 初始化的影响程度为两个特征在批量样本所有共同出现时间点上的特征之和. 基于该思想构建的多元时间序列数据图结构经过一次非线性优化后在预测任务中取得了很好的效果. 该轻量级方法启发我们以此方式建立初始化的图结构, 然后利用一层神经网络进一步优化. 进而可以应用于目前比较流行的图卷积计算方式GraphSage[19], GIN[20], GAT[21]等. 同时, 现有的多元时间序列分类预测模型仅基于输出的概率分数来确定预测类别, 这种预测分数往往是模型过度自信产生的结果, 并不可靠[22], 该类模型没有考虑预测过程中的不确定性, 无法表达每个样本判定结果的不确定程度. 这种不确定性已被证实带来灾难性的结果[23]. 因而多元时间序列分类模型需要能够评估对分类结果的不确定性程度. 在提供模型的不确定性估计方面, 具备严谨数学逻辑的贝叶斯神经网络, 又称为BNN (Bayesian neural network)[22, 24]取得了不错的效果. BNN模型主要对参数的分布进行建模, 通过参数分布的不确定性来估计预测结果的不确定性[25].

    综上所述, 针对目前MTS算法难以自动建模多元变量之间复杂的交互关系以及模型未考虑不确定性的评估等问题, 本文首先基于“共生变量对”的思想构建初始化的图结构, 利用全连接神经网络自动学习(微调)多元变量对之间显性的关系, 然后利用图神经网络的消息传播与聚合机制提取多元变量隐性的复杂关系, 得到考虑了多元变量之间高阶交互关系的初始样本表征信息. 最后, 基于学习到的初始样本表征信息, 本文利用贝叶斯神经网络将预测过程中的不确定性引入模型, 使得最终的分类结果可进行不确定性度量. 本文的创新点总结如下:

    1)本文提出一种端到端的基于不确定性的多元时间序列分类框架变分贝叶斯共享图神经网络, 即VBSGNN (Variational Bayes shared graph neural network). 该框架利用图神经网络建模多元变量之间的交互关系, 然后将融合了高阶隐性与显性关系的表征向量送入贝叶斯神经网络, 建模不确定性. 框架中核心的图神经网络模块和不确定性度量模块串联而非耦合, 易于扩展, 是一种轻量级的框架.

    2)根据贝叶斯神经网络的计算结果, 本文提出基于样本内部类别相对不确定性的“相对方差”的不确定性度量方式来识别潜在的容易造成误判断的不确定性样本.

    3)本文基于多个MTS基准数据集进行了大量的算法实验, 并与当前的主要多元时间序列分类算法进行了比较, 实验结果表明我们提出的算法模型取得了较好的分类效果, 证明了所提出的图结构学习方法、模型预测过程中提出的不确定性度量等方法是有效的.

    该模块旨在建立以多元时间序列变量为节点的图结构. 首先基于“共生变量对”思想得到一批MTS数据的共享初始图结构, 进一步基于神经网络学习得到对于分类任务具有潜在意义的(依据任务本身的目标损失函数, 通过梯度下降法来微调, 并对其进行稀疏过滤操作, 以降低噪声)自适应图结构, 在此基础上学习更好的样本表征, 进而得到更好的预测结果. 具体如下所示.

    给定MTS数据$ {T},{T}\in {\bf{R}}^{s\times t\times m},s $代表样本维度, $ t $代表时间维度, $ m $代表多变量维度, 对应的标签为$ {Y},{Y}\in {\bf{R}}^{{s}\times 1}.\;{D}={\left\{{T}_{i},{Y}_{i}\right\}}_{i=1}^{s} $即为输入数据集, 定义$ {\cal{F}}\in {T} $表示抽取的批量样本. 定义每个变量为图结构中的一个节点, 即共$ m $个节点, 每个变量时间维度上的序列特征即为每个节点上的特征, 即每个节点上有$ t $个特征. 首先基于“共生变量对”的思想将MTS映射至二维张量, 即得到一个批量数据的对称加权共享邻接矩阵$ {{A},A\in {\bf{R}}}^{m\times m} $. 该矩阵可以描述多变量之间的交互关系, 构成了初始化的图结构, 即$ {A}= \langle {V},{E} \rangle $. 该图结构由节点和边组成, ${V},{E} $分别表示节点和边的集合, 其中节点数量等于MTS数据中的变量个数$ m $, 边数量等于“共生变量对” 的数量. 每个节点$ v\in {V} $都对应MTS数据中的某个变量, 每条边$ e\in {E} $都对应“共生变量对”之间的边连接, 即表示$\langle v,u \rangle$$\langle u,v \rangle$之间的连接, $ u,v\in {V} $. 边之间的权重$ f $大小为“共生变量对”$\langle u,v \rangle$变量值的和, 即如下公式:

    $$ {{f}}\left( {u,v} \right) = \sum\limits_{i = 0}^{s - 1} {\sum\limits_{j = 0}^{t - 1} {{T_{i,j,u}} + } } {T_{i,j,v}} $$ (1)

    若两个变量没有同时出现在一个批量样本和时间步上, 即没有构成“共生变量对”, 那么图结构中不会为这两个变量之间建立边连接, 即$ \langle u, v \rangle \notin {E},f\left(u,v\right)=0 $.

    $ {\cal{F}} $表示单个样本, 即$ s=1 $时, 得到的是单个样本(类别)的初始图结构, 由于一次仅输入单个样本, 这种方法用于模型训练效率低; 当$ {\cal{F}} $表示多个样本, 即$ s > 1 $时, 构建的图结构$ {A} $是多个样本共用的初始图结构, 由于批量样本输入, 训练模型效率高, 本文采取的方式是批量样本输入.

    基于式(1)得到的对称加权邻接矩阵$ {A} $描绘了初始状态下变量之间的边连接关系、权重大小, 是有权重的无向图. 由于在本文数据集上并不存在没有构成“共生变量对”的情况, 即任意两个特征之间都存在边连接, 若特征(节点)数量多, 得到的图结构是过于稠密的, 存在噪声大、训练效率慢等问题, 并且考虑变量同时出现不等价于存在相互影响关系的问题, 需要通过线性变换函数与激活函数来进一步学习边之间的连接关系以及权重大小, 得到更适用描述变量之间关系的最终图结构, 同时利用激活函数对边进行自适应裁剪, 即如下公式:

    $$ {A}_{h + 1} = \sigma \left( {W}_{\bar u} \cdot {A}_h + {b_{\bar u} }\right),\;{{A}_{h + 1}} \geq 0 $$ (2)

    其中$ \sigma \left( {\cdot} \right) $表示ReLU激活函数, $ {W}_{{\bar u}} $$ {b}_{{\bar u}} $为可学习参数, $ {{A}}_{{{{h}}}+1} $表示迭代第$ h+1 $次后的邻接矩阵. 当初始图结构为批量输入样本得到的共享图结构时, 训练模型效率高, 它捕获了样本不同类别之间的共性, 进一步被送入GNN, 根据每个节点上时序特征的差异可聚合有效的特征信息, 进而可用于分类或贝叶斯网络的建模.

    另外, 基于扰乱顺序的批量训练样本, 经过神经网络的迭代优化可学习到用于提取多元变量交互关系的权重参数, 此时通过输入批量样本可以基于该参数得到两种图结构. 即输入同一类别的批量样本得到单类别图结构和输入多个不同类别的批量样本得到多类别共享图结构. 前者可用于研究单类别的强相关特征; 后者可用于研究多类别的共同强相关特征, 均可用于特征筛选等操作. 共享图结构所描绘的较重要特征包含了单类别图结构中的部分强相关特征, 下文图结构可视化一节中也证实了这一点.

    为了进一步降低噪声影响、提高模型性能、鲁棒性以及改善训练效率, 通过设定一个百分位权重阈值$ a $来过滤学习到的特征(节点)数量较多的图结构, 达到进一步稀疏化邻接矩阵的目的:

    $$ {{{A}}_{i,j}} = \left\{ \begin{aligned} &{{{A}}_{i,j}},&{{{A}}_{i,j}} > a \\ &0,&{{{A}}_{i,j}} \leq a \end{aligned} \right. $$ (3)

    经过神经网络迭代优化、裁剪后的矩阵为非对称矩阵, 即有权重的有向图. 式中$ i $$ j $分别表示一条边的源节点和目标节点, 若${{A}}_{i,j}$为0则视为两个变量之间没有边连接, 忽略相互影响关系, 否则视为存在边连接且有较强相互影响关系, 边上的权重大小即为${{A}}_{i,j}$元素值, 定义该图结构为 $ {G}=({V}, {E}, {A}) $, 其中$ {V} $表示图结构中的节点, $ {E} $表示图结构中的边, $ {A} $表示有权重的邻接矩阵.

    现有的基于谱域图卷积的GNN在运算时只采用特定大小的卷积核进行特征提取, 易导致信息丢失[26-27]. TAGCN[27]卷积核设定类似于GoogleNet[28], 每一个卷积层都有大小不同的卷积核提取特征, 针对时间序列数据可以捕获更多的时间序列特征, 因此在MTS的背景下, 提取出的特征分类效果相对于前文提到的GraphSage, GIN和GAT具有一定的优势, 在后续实验中也将对比TAGCN与它们的性能.

    对于TAGCN的第$ n $个隐藏层, 输入为图结构$ {G} $及相应节点特征数据或第$ {n}-1 $个隐藏层的输出, 作为第$ n $个隐藏层输入的所有节点上的第$ k $个特征数据可定义为$ {x}_{k}^{n}\in {\bf{R}}^{{m}_{n}},{k}=\mathrm{1,2},\cdots ,t $. 特征向量$ {x}_{k}^{n} $的具体组成由所得图结构$ {G} $中的节点索引确定. 定义$ {{G}}_{{k},{{f}}}^{{n}}\in {\bf{R}}^{{m}_{n}\times {m}_{n}} $为第$ f $个图卷积核, 图卷积本质上是矩阵向量的乘积运算, 例如$ {{G}}_{{{k}},{f}}^{{n}}{x}_{{k}}^{{n}} $则表示一次图卷积.

    TAGCN图卷积运算时首先将邻接矩阵归一化, 使其特征值均在单位圆内以此保证卷积运算的稳定性, 进一步基于图卷积核的平移不变性原理[27]可得:

    $$ {{{G}}_{k,f}^{n}}=\sum _{c=0}^{C}{{g}}_{k,f,c}^{n}{\bar {A}}^{c} $$ (4)

    其中$ {g}_{{{k}},{f},{c}}^{{n}} $为多项式图卷积核系数, $ C $为超参数, 表示$ C $个不同尺寸的卷积核, $ {\bar {A}}^{{c}} $为归一化后的邻接矩阵. 进一步, $ C $个不同尺寸的图卷积核在图结构数据上提取不同尺度的特征, 并进行线性组合, 即得第$ n $个隐藏层输出的特征映射:

    $$ {{y}}_f^n = \sum\limits_{k = 1}^{{t_n}} {{{G}}_{k,f}^n{{x}}_k^n} + {b_f^n}{1_{{m_n}}} $$ (5)

    其中$ {b}_{{{f}}}^{{n}} $为可学习参数, ${1}_{{m}_{n}}$是维度为$ m $且均为1的向量, $ {{G}}_{{{k}},{f}}^{n}{x}_{{k}}^{{n}} $表示在具有任意拓扑结构图上的一次有效图卷积操作.

    最后经过激活函数与线性变换得最终特征, 定义为$ {V} $. 进一步在堆叠的图神经网络之间以及最后的线性层之后加上“Dropout”层[29]以抑制过拟合, 增强模型鲁棒性. 最后将批量提取的特征送入分类层得到交叉熵损失:

    $$ {\cal{L}}_{\mathrm{CE}}=\frac{1}{{\cal{F}}}\sum _{\widetilde {s}}-\sum _{u=1}^{U}{y}_{\widetilde {s}u}\mathrm{ln}\left({p}_{\widetilde {s}u}\right) $$ (6)

    其中CE表示Cross Entropy (交叉熵), $ {\cal{F}} $为批量样本个数, $ U $为单个样本类别总数, $ {y}_{\widetilde {s}u} $为指示变量. 若第$ \widetilde {s} $个样本的预测标签与真实标签相同, 则$ {y}_{\widetilde {s}u}=1 $否则$ {y}_{\widetilde {s}u}=0 $. $ {p}_{\widetilde {s}u} $表示第$ \widetilde {s} $个样本属于第$ u $个类别的概率. 图结构学习与特征提取器通过Adam[30]进行优化. 整个算法流程如图1所示.

    图 1  MTS数据特征提取模型架构与优化流程
    Fig. 1  Feature extraction model architecture and optimization process of MTS data

    本节基于变分推断求解了贝叶斯后验, 为模型提供了不确定性, 并且第一次提出考虑了样本内部类别相对不确定性的“相对方差”不确定性衡量方式. 另外, 本文没有直接将贝叶斯加在TAGCN上, 而是利用其提取出来的特征进行贝叶斯建模, 第一个好处是计算更加简便, 因为受时序特征维度的影响, TAGCN的参数量会有比较大的波动, 时序特征维度很大时求解贝叶斯网络会更加复杂; 第二个好处是框架的解耦性好, 因为当我们直接替换特征提取模型时仍可以方便地赋予模型不确定性和可解释性.

    贝叶斯神经网络 (BNN) 由于学习到的是参数的分布, 可以基于此获得预测结果的置信区间以及对模型输出的不确定性建模, 从而捕获不确定性样本. 同时, 权重参数不是固定参数, 因此可抑制过拟合. 相对于深度学习这种黑盒模型, 贝叶斯统计具有很好的鲁棒性和可解释性[24-25, 31].

    MTS数据经特征提取模型可得初始的特征向量$ {V} =\left( {{v_1},{v_2},{v_3},\cdots,{v_s}} \right)$. BNN可以通过权重参数的后验分布来评估模型的不确定性. 根据贝叶斯法则可得最终的预测分布:

    $$ P\left({{y}}_{{*}}|{V}_{{*}},V\right)=\int P\left({{y}}_{{*}}|{V}_{{*}},\theta \right)P\left(\theta |V\right){\rm{d}}\theta $$ (7)

    其中$ \theta $为BNN的权重参数, $ P\left(\theta \right) $是参数的先验分布.

    $$ P\left( {\theta |V} \right) = \frac{{P\left( {V|\theta } \right)P\left( \theta \right)}}{{P\left( V \right)}} $$ (8)

    其中$ P\left( {\theta |{V}} \right) $是后验分布, $ P\left( {V|\theta } \right) $是似然函数, $ P\left( V \right) $为边缘似然. 假设$ \theta $具有$\left\{{\theta }_{1},{\theta }_{2},{\theta }_{3}, {\cdots},{\theta }_{n}\right\}$个参数, 则

    $$ P\left( V \right) = \int\nolimits_{{\theta _1}} {{{\cdot\cdot\cdot}}\int\nolimits_{{\theta _n}} {P\left( {V,\theta } \right)} {\rm{d}}} {\theta _1}\cdots {\rm{d}}{\theta _n} $$ (9)

    $ P\left( V \right) $是一个难以求解的多重积分, 从而导致后验分布难以获得解析解, 因此也无法求得最终的预测分布.

    随机变分推断, 也称为SVI (Stochastic variational inference), 可以将复杂的贝叶斯模型应用于大规模的数据集, 该方法已经在很多实践中被证明能够有效地解决各种学习和推理问题[32]. 因此本文采用SVI来求解贝叶斯网络的后验分布. 假设后验分布$ P\left( {\theta |V} \right) $用一个简单的变分分布$ q\left( {\theta {\text{|}}\phi } \right) $来近似. 通常采用KL散度来衡量两个分布的近似程度[32], 因此可构造如下优化问题:

    $$ \mathop {\min }\limits_\phi {{{{KL}}(q}}\left( {\theta {\text{|}}\phi } \right)||{{P}}(\theta {\text{|}}V)) $$ (10)

    通过求解使得两个分布距离最小的变分分布参数$ \phi $来得到近似的后验分布, 而后验分布未知, 因此将其转换为证据下界, 又称为ELBO (Evidence lower bound)优化问题来处理[32], 基于上述公式进一步推导得到:

    $$ \begin{split}& {{KL(}}q\left( {\theta {\text{|}}\phi } \right)||P(\theta {\text{|}}V)) = {{\rm{E}}_{q\left( {\theta {\text{|}}\phi } \right)}}\ln q\left( {\theta {\text{|}}\phi } \right) - \\ & \qquad{{\rm{E}}_{q\left( {\theta {\text{|}}\phi } \right)}}\ln P(\theta ,V) + \ln P\left( V \right) = \\ &\qquad- ELBO\left( q \right) + \ln P\left( V \right) \end{split} $$ (11)

    进一步可得:

    $$ \begin{split} \ln P\left( V \right) =\;& {{KL(}}q\left( {\theta {\text{|}}\phi } \right)||P(\theta {\text{|}}V))+ \\ &ELBO\left( q \right) \geq ELBO\left( q \right) \end{split} $$ (12)

    由于${{KL(}}q\left( {\theta {\text{|}}\phi } \right)||P(\theta {\text{|}}V)) \ge 0$, 且$ \ln P\left( V \right) $是常数, 因此最小化KL散度的优化问题等价于最大化$ ELBO\left( q \right) $, 因此原先的优化目标函数由KL散度替换为ELBO. 联合贝叶斯法则和式(11)推导过程还可得:

    $$ \begin{split} ELBO\left( q \right) =\;& {{\rm{E}}_{q\left( {\theta {\text{|}}\phi } \right)}}[\ln P(V|\theta )] - \\ & {{ KL(}}q\left( {\theta {\text{|}}\phi } \right)||P(\theta )) \end{split} $$ (13)

    式中${{\rm{E}}_{q\left( {\theta {\text{|}}\phi } \right)}}[\ln P(V|\theta )]$即为基于变分后验分布的重建似然函数; ${{KL(}}q\left( {\theta {\text{|}}\phi } \right)||P(\theta ))$为变分分布与先验分布的KL散度, 其中变分分布$ q\left( {\theta {\text{|}}\phi } \right) $是优化目标. 联合式(12)和(13)即可得最终目标等式 (ELBO):

    $$ \begin{split} \ln P\left( V \right) \geq\;& {{\rm{E}}_{q\left( {\theta {\text{|}}\phi } \right)}}[\ln P(V|\theta )] - \\ & {{ KL(}}q\left( {\theta {\text{|}}\phi } \right)||P(\theta )) \end{split} $$ (14)

    式(14)可通过任意的随机梯度下降法进行优化, 因为似然函数$ P(V|\theta ) $可以基于MTS数据实例分解得到. 即为:

    $$ P(V|\theta ) = \prod\limits_{i = 1}^p {P({V_i}|{\theta _i})} $$ (15)

    此时可得最终目标函数:

    $$ {\cal{L}}={\cal{L}}_{\mathrm{CE}}+\eta \sum _{V\in {\cal{F}}}({-{E}{L}{B}{O}}_{V} )$$ (16)

    其中${\sum }_{V\in {\cal{F}}}{{E}{L}{B}{O}}_{V}$为基于一个批量样本及其特征${{V}}$与蒙特卡洛采样法估计得到的$ \mathrm{E}\mathrm{L}\mathrm{B}\mathrm{O} $值, 取负是为了将最大化$ \mathrm{E}\mathrm{L}\mathrm{B}\mathrm{O} $的问题转换为最小化负的$ \mathrm{E}\mathrm{L}\mathrm{B}\mathrm{O} $, 以便与最小化交叉熵损失共同优化; $ \eta $是为了平衡交叉熵损失与$ \mathrm{E}\mathrm{L}\mathrm{B}\mathrm{O} $的超参数.

    同时为了高效地求解ELBO的优化问题, 基于MFVI (Mean field VI) 假设来处理参数的优化, 即假设变分后验分布是完全可分解的分布[33]. 定义$q( {\theta {\text{|}}\phi } ) = {\cal {\rm{N}}}( {{\rm{\mu }} , {{\rm{\sigma }}^2}} )$, ${{P}}( \theta ) = {\cal {\rm{N}}}( {0,1})$, 其中$ \phi = \{ {{\rm{\mu }},{{\rm{\sigma }}^2}} \}$. 通过蒙特卡洛估计法即可近似估计${{\rm{E}}_{q\left( {\theta {\text{|}}\phi } \right)}}[\ln P(V|\theta )]$, 而式(14)中的KL散度是基于两个高斯分布定义的, 因此可获得解析解, 基于重参数采样法即可不断迭代优化变分分布的参数, 得到目标后验分布$ P\left( {\theta |V} \right) $.

    给定基于测试集MTS数据提取的特征$ V $, 最终的目标是得到预测分布$P\left({{y}}_{{*}}|{V}_{{*}},V\right)$:

    $$ P\left( {{y_*}|{V_*},V} \right) = \frac{1}{K}\sum\limits_{{{k}} = 1}^K {P\left( {{y_*}|{V_*},{\theta _*}} \right)} \;\;\; $$ (17)

    其中, $ \;\;\;{\theta _*}\sim q\left( {\theta {\text{|}}\phi } \right) $. 最后基于输入特征$ V $采用蒙特卡洛采样法即可计算得预测分布的均值$ {{\text{E}}_{p({y_*})}}[{y_*}] $和方差$ {\text{Va}}{{\text{r}}_{p({y_*})}}[{y_*}] $

    该方差${\rm{Var}}$为每个样本对于即将预测的所有类别的方差. 对所得方差数据取以${\rm{e}}$为底的对数, 压缩变量尺度, 使得数据更加稳定, 削弱数据的异方差性. 所得每个类别的方差如下所示, $ s $代表样本维度, $ l $代表样本对应标签的维度.

    $$ {\rm{Var}}{_s} = \left[ {\ln \left( {{{{{\rm{var}}} }_{{s}}}_{{1}}} \right),\ln \left( {{{{{\rm{var}}} }_{{s}}}_2} \right),\cdots,\ln \left( {{{{{\rm{var}}} }_{\text{s}}}_l} \right)} \right]$$ (18)

    式中$ \ln \left( {{{{{\rm{var}}} }_{\text{s}}}_l} \right) $指的是对第$ s $个样本的第$ l $个类别的方差取${\rm{e}}$为底的对数.

    进一步可得每个样本的不确定得分. 本文提出了基于每个样本所有类别的相对方差来评估样本的不确定性的概念. 若某个样本所有类别的最高方差和最低方差之差的值较大, 则认为该样本的不确定性较大, 可以筛选出来留给人类专家评判, 同时降低误判率, 提高预测效果. 不确定性得分计算方式如下:

    $$ {{u}}\_{{score}}_r^s = {\left( {\rm{{Var}}}{_s} \right)_{\max }} - {\left( {\rm{{Var}}}{_s} \right)_{\min }} $$ (19)

    式中, ${\rm{Var}}_s$$ 1\times l $维的向量, $ l $表示该样本的类别总数, $( {\rm{{Var}}}{_s} )_{\max }$${\left( {\rm{Var}}_s \right)_{\min }}$分别表示第$ s $个样本所有类别中方差最大者和最小者, 该式表示第$ s $个样本的不确定得分.

    另外, 基于式(18)还可以得到别的不确定得分的衡量方式, 如基于“最大方差”的思想, 将当前样本每个类别的方差直接累加求和作为该样本的不确定性得分, 定义其为${{u}}\_{{score}}_\tau ^s$; 还可以通过“最大方差”与“相对方差”简单加权结合的衡量方式, 如${{u}}\_{{score}}_{r\tau }^s = \lambda \times {{u}}\_{{score}}_\tau ^s + {{u}}\_{{score}}_r^s$, $ \mathrm{\lambda } $用于控制最大方差的影响程度, 但是我们发现基于单独“最大方差”或当前简单加权组合融入了“最大方差”的衡量方式效果都不理想, 由于篇幅原因, 我们在下文展示了部分对比实验结果. 本文最终使用所提出的基于“相对方差” ${{u}}\_{{score}}_r^s$的不确定性得分衡量方式, 具体的实验结果将在下文展示. 整个算法流程如算法1所示. 整个随机变分推断流程如图2所示.

    图 2  随机变分推断流程
    Fig. 2  The process of stochastic variational inference

    算法1. VBSGNN方法

    1)$ {\bf{Input}} $: 数据集$ D = \left\{ {{T_i},{Y_i}} \right\}_{i = 1}^s $

    VBSGNN模型参数$ \{\overline{w}, \overline{b},\theta ,\phi \} $

    2)$ {\bf{for}} $ $ i=1 $ $ {\bf{to}} $ epochs $ {\bf{do}} $

    3) 取一个批量MTS样本$ {\cal{F}}\subset T $

    4) 提取得到特征$ {{V}} = \left[ {{v_1},{v_2},{v_3},\cdots,{v_n}} \right]$

    5) 通过$ {Y}_{i} $${{V}}$、全连接分类层、式(6)计算交叉熵损失${\cal{L}}_{\mathrm{CE}}$

    6) 通过随机变分推断(SVI)训练变分BNN模型

    7)$ {\bf{While}}\;{\rm{the}}\;{ELBO}\;{\rm{not}}\;{\rm{converged}}\;{\bf{do}} $

    8) 从$ q\left( {\theta {\text{|}}\phi } \right) $生成$ K $个样本$ \overline \phi $

    9) $ {\bf{for}} $ 每条特征$ V\in {\cal{F}} $ $ {\bf{do}} $

    10) 从$ P(\theta ) $生成$ K $个样本$ {\theta _V} $

    11) 基于式(14)及蒙特卡洛法采样的样本$ ( {\overline \phi ,{\theta _V}} ) $估计$ {ELBO}_{{V}} $的值

    12) $ {\bf{end}} $

    13) $ {ELBO}={\sum }_{{V}\in {\cal{F}}}{ELBO}_{{V}} $

    14) 计算总损失${\cal{L}}={\cal{L}}_{\mathrm{CE}}+\eta (-{E}{L}{B}{O})$

    基于$ {\cal{L}} $进行反向传播, 通过随机梯度下降法更新VBSGNN参数$ \{\overline{w}, \overline{b},\theta ,\phi \} $

    15) $ {\bf{end}} $

    16)$ {\bf{end}} $

    17)$ {\bf{Output}} $: 参数$\{{\overline{w}}^{*}, {\overline{b}}^{*},{\theta }^{*},{\phi }^{*}\}$

    数据集$. $ 为了验证所提算法的有效性, 选取了10个公开的静态多元时间序列分类数据集进行仿真分析, 所选数据集的概要如表1所示. AtrialFibrillation中多元变量分别指两个通道的心房颤动心电图信号, 预测任务是判别当前心房颤动属于终止性心房颤动还是非终止性心房颤动. FingerMovements中多元变量分别指28个500毫秒长的脑电图通道, 预测任务是根据脑电图信号判别当前即将进行左手动作还是右手动作. HandMovementDirection中多元变量分别指10个脑电图通道, 预测任务是根据脑电图信号判别当前手腕的可能运动方向. Heartbeat中多元变量分别指频谱图中61个不同频带, 预测任务是判别当前心音记录者属于健康人或心脏病患者. Libras中多元变量分别指经过手部运动视频前处理得到的手部质心位置的XY坐标, 预测任务是基于时间序列XY坐标判别当前手部动作的类别. MotorImagery中多元变量分别指64个脑皮层电图信号, 预测任务是判别大脑所想象的运动类别是左手小指运动还是舌头部位运动. NATOPS中多元变量分别指由传感器记录得到的手部、手腕、肘部、拇指的XYZ坐标, 每个部位又分左、右两种 (如左手腕和右手腕), 预测任务是判别当前24个时序坐标所描述的动作类别. PenDigits中多元变量分别指由笔在数字屏幕上写数字0 ~ 9而接触生成的XY坐标, 预测任务是判别当前手写数字的类别. SelfRegulationSCP2中多元变量分别指7个脑电图通道, 预测任务是判别慢皮层电位的变化类别, 即正向或负向变化. StandWalkJump中多元变量分别指频谱图中的4个不同频带, 预测任务是判别进行的活动类别, 即站立、行走或跳跃.

    表 1  实验中使用的10个数据集概要
    Table 1  Summary of the 10 UEA datasets used in experimentation
    名称训练集大小测试集大小多变量维度时间维度类别个数
    AFAtrialFibrillation151526403
    FMFingerMovements31610028502
    HMDHandMovementDirection16074104004
    HBHeartbeat204205614052
    LIBLibras18018024515
    MIMotorImagery2781006430002
    NATONATOPS18018024516
    PDPenDigits749434982810
    SRS2SelfRegulationSCP2200180711522
    SWJStandWalkJump1215425003
    下载: 导出CSV 
    | 显示表格

    模型参数与实验细节. 根据各自数据集的时间序列长度的不同, TAGCN隐藏层参数选取范围为{32, 64, 128, 256, 512, 1024}, 全连接层隐藏层参数选取范围为{16, 32, 64, 128, 256, 512}. 模型优化器为Adam, 特征提取部分模型学习率选取范围为{$1\times 10^{-5}$, $1\times 10^{-4}$, $1\times 10^{-3}$}, 变分贝叶斯部分模型学习率选取范围为{$1\times 10^{-4}$, $1\times 10^{-3}$, $6\times 10^{-3}$, $1\times 10^{-2}$}. 损失函数中的超参数$ \eta $设定为$ 2\times 10^{-5} $. 每个数据集的实验结果都是在当前数据集上同样参数下独立运行了5次后取得的最佳结果. 所有实验都是基于Python3.7、Pytorch1.7.1进行的, 并且均在相同的软件环境下实现, 即Intel (R) Core (TM) CPU I7-10700 @ 2.90 GHz 16核.

    对比算法. 基于公开的多元时间序列数据集与已经提出的7类多元时间序列分类算法进行了比较, 所有实验结果均从测试集上取得. MTSC算法中ED和ED(norm)[4]为基于欧氏距离的MTS最近邻分类器, 按数据是否标准划分为两种. DTWI, DTWI(norm)[4] 为基于与维度无关的动态时间弯曲距离MTS最近邻分类器, 按数据是否标准划分为两种. DTWD, DTWD(norm)[34] 为基于与维度相关的动态时间弯曲距离MTS最近邻分类器, 是DTWI的变体, 按数据是否标准化分为两种. WEASEL+MUSE[4]是基于模式袋的最新MTS分类算法. HIVE-COTE[35]是一种基于分层投票系统的MTS分类算法. MLSTM-FCN[10]是最新通用的多元时间序列分类的深度学习框架. 该模型由一个长短期记忆网络层、堆叠的卷积神经网络层以及一个压缩和激发模块组成, 以产生潜在的特征用于分类. TapNet[4]结合了传统和深度学习方法的优点, 是一种基于长短期记忆网络层和堆叠卷积神经网络层的注意力原型网络. MTPool[17]是一种基于图池化方法的MTS分类算法, 根据不同的池化方法, 又分为MTPool-M, MTPool-D, MTPool-S, MTPool-One, MTPool-Corr几种变体算法. 本文提出的特征提取模块算法, 即共享图神经网络SGNN (Shared graph neural network), 未加变分贝叶斯推断, 包括基于GraphSage[19] 的SGNN-S, 基于GIN[20] 的SGNN-I, 基于GAT[21] 的SGNN-A, 基于TAGCN[28]的SGNN-T. 变分贝叶斯共享图神经网络, 即VBSGNN是在SGNN-T的基础上加了变分贝叶斯推断的算法.

    表2列出了不同MTS分类算法的准确率对比结果, 将每个数据集的最佳准确率进行了黑体加粗显示, “Wins”一列表示基于当前算法表现优于或等于其他算法最佳准确率的数据集个数. 本文构建的图结构搭配四种先进的图神经网络算法的结果如表2所示, 观察SGNN-S、SGNN-I、SGNN-A的结果可以发现, 由于数据集以及不同图网络卷积方式的差异, 不同的图卷积算法表现出的性能也有所差异, 例如SGNN-S在FM数据集上表现较好, 而在HMD数据集上效果一般, 三种算法的差异不大, 但是各个算法的效果都要好于表2中其他大部分先进的算法. 说明本文所构建的图结构对于不同的图卷积算法的适应性比较好. 而SGNN-T的效果最好, 这是因为MTS数据的特性很大程度上由时间序列决定, 而TAGCN可以通过不同感受野的卷积核来提取不同时间序列长度的特征, 不同感受野的特性使得TAGCN可以较好的处理时间序列数据, 提取表征能力更强的特征, 因而最终分类效果好.

    表 2  在10个公开数据集上的不同算法准确率对比
    Table 2  Accuracy of different algorithms on 10 public datasets are compared
    算法数据集
    AFFMHMDHBLIBMINATOPDSRS2SWJWins
    ED0.2670.5190.2790.6200.8330.5100.8500.9730.4830.3330
    DTWI0.2670.5130.2970.6590.8940.3900.8500.9390.5330.2000
    DTWD0.2670.5290.2310.7170.8720.5000.8830.9770.5390.2000
    ED(norm)0.2000.5100.2780.6190.8330.5100.8500.9730.4830.3330
    DTWI(norm)0.2670.5200.2970.6580.8940.3900.8500.9390.5330.2000
    DTWD(norm)0.2670.5300.2310.7170.8700.5000.8830.9770.5390.2000
    WEASEL+MUSE0.4000.5500.3650.7270.8940.5000.8700.9480.4600.2670
    HIVE-COTE0.1330.5500.4460.7220.9000.6100.8890.9340.4610.3331
    MLSTM-FCN0.3330.5800.5270.6630.8500.5100.9000.9780.4720.4000
    TapNet0.3330.4700.3380.7510.8780.5900.9390.9800.5500.1330
    MTPool-M0.5330.5040.4860.7420.8280.5600.9280.9780.5500.5330
    MTPool-D0.4000.5300.4590.7370.8110.6000.9440.9770.5500.5330
    MTPool-S0.4000.5900.4730.7220.8110.5400.8890.9830.5390.6670
    MTPool-One0.4000.5700.4050.7170.8330.5400.8890.9700.5390.6000
    MTPool-Corr0.4000.5900.4190.7220.8280.5600.9040.9730.5500.6000
    MTPool0.4670.6200.4320.7420.8610.6300.9040.9830.6000.6670
    SGNN-S0.6000.6500.5410.7410.8890.6000.9610.9840.5890.6002
    SGNN-I0.5330.5500.5140.7410.8830.6400.9330.9740.5720.6001
    SGNN-A0.5330.5600.5000.7510.8780.5600.9610.9800.5500.6000
    SGNN-T0.6000.6400.6080.7560.8890.6300.9780.9850.6000.7337
    VBSGNN0.6670.6800.6220.7760.8720.6800.9720.9840.6220.7339
    下载: 导出CSV 
    | 显示表格

    总体而言, 本文提出的算法具有较好的分类效果. 从表2可以发现, 未加变分贝叶斯推断的SGNN系列算法整体表现优于其他算法, 说明所提的图结构学习以及特征提取方法是有效的. 在不同的数据集和算法实验中发现, 变分贝叶斯的效果严重依赖于特征提取器的效果, 因此加了变分推断后的SGNN-S、SGNN-I、SGNN-A的效果略好于未加之前且各自效果差异不大, 但由于在MTS数据背景下原始图卷积方式提取的特征效果没有TAGCN好, 因此效果都差于加了变分推断的SGNN-T. 并且受篇幅限制, 本文仅展示基于加了变分推断的SGNN-T (即VBSGNN)进行的分类、不确定性评估等实验结果. VBSGNN预测过程引入了不确定性并可以抑制过拟合、提高模型鲁棒性, 在较难数据集(其他算法最高准确率低于0.8的数据集)上的效果都有了进一步的提升. 虽然在基础准确率较高的数据集如LIB、NATO、PD上, 从准确率角度来看表现有所下降, 但也要优于其他基准算法, 同时变分贝叶斯推断带来的模型可解释性如样本不确定性度量等是非常有意义的.

    基于LIB数据集, 分别使用加了变分贝叶斯的VBSGNN和未加贝叶斯的SGNN-T通过蒙特卡洛采样法生成预测分布, 得到样本各类别方差, 并基于雷达图进行了可视化, 如图3所示. 由图3(a)可以发现SGNN-T 对于样本各类别不确定性建模效果很差, 各类别不确定性几乎均处于同一水平, 难以基于此筛选出不确定样本; 而图3(b) VBSGNN 得到的样本各类别的方差波动性大, 说明对于每个样本的不同类别不确定性都进行了建模, 为基于不确定性得分进行样本筛选来改善预测以及基于方差进行模型的不确定性估计奠定了基础.

    图 3  SGNN-T和VBSGNN的预测分布方差对比
    Fig. 3  Variance comparison of prediction distribution between SGNN-T and VBSGNN

    表1可以发现个别数据集中存在样本不平衡情况, 为了考虑这种不平衡现象以及从多指标角度充分评估不确定性得分计算方式的有效性, 引入除了准确率(Accuracy)之外的其他几个指标:

    $$ {{F1\ Score = }}\frac{{{\text{2}} \times \left( {prec \times rec} \right)}}{{prec + rec}} $$ (20)

    其中, $ prec $为精确率(Precision), $ rec $为召回率(Recall).

    $$ Cohen's\;Kappa=\frac{{\rho }_{{o}}-{\rho }_{e}}{1-{\rho }_{e}} $$ (21)

    式(21)可以用来有效衡量模型对二分类或多分类的性能, 对于不平衡数据集更加适用. ${\rho _{{o}}}$代表观察到的符合的比例, $ {\rho _e} $是由于随机性产生的符合比例. $Cohen's\;Kappa$值越大, 代表模型性能越好.

    $$ PRAUC = \sum\limits_{{{k}} = 1}^n {prec\left( k \right)\Delta rec\left( k \right)} $$ (22)

    $ PRAUC $表示精确率、召回率曲线下方的面积, 常用于评价模型的分类性能.

    根据表2数据集实验结果, 以准确率指标衡量数据集的难预测程度, 据此选取了7个较难分类的数据集 (准确率低于0.8), 基于VBSGNN和不确定得分剔除得分较高的样本再进行分类预测, 并比较不剔除数据以及剔除10%、20%、30%数据量下的各项评估指标差异. 基于上文第3.3节提出的$ {u}\_{score}_\tau ^s $, $ {u}\_{score}_{r\tau }^s $$ {u}\_{score}_r^s $计算不确定得分进行实验, 发现前两个衡量方式效果并不理想, 由于篇幅原因, 我们仅在此放上基于$ {u}\_{score}_\tau ^s $和AF、HMD、HB数据集的实验结果. 选择这三个数据集是因为它们比较有代表性, 测试集大小 (15、74、205)跨度大, 分类种类 (3、4、2)也有一定跨度.

    整体的实验结果如图4所示, 基于$ {u}\_{score}_\tau ^s $$ {u}\_{score}_r^s $的两组实验的参数设置与环境都一样, 不同的仅仅是不确定得分的计算方式. 可以发现在小数据集(AF)上区分不是很明显. 而在HB、HMD数据集上区分显著, 对于$ {u}\_{score}_\tau ^s $, 以未剔除样本的各指标值为参照, 剔除10%、20%、30%后的各指标值几乎都明显处于剔除0%数据的各指标值下方, 仅个别指标略微在其上方; 而基于“相对方差”$ {u}\_{score}_r^s $的各剔除量下的各指标值几乎都明显在剔除0%的各指标值上方. 这说明随着数据集增大, 基于“最大方差”$ {u}\_{score}_\tau ^s $的不确定得分衡量方式对于分类预测的改善效果变得很差, 远低于基于“相对方差”的改善效果, 也说明基于“最大方差”样本筛选存在过多误筛选情况, 即剔除了许多模型可以分类正确的样本, 因此所提基于“相对方差”的不确定性衡量是相对更有效的. 对于“最大方差”表现不好的原因之一可能是基于最大方差求出来的不确定得分引入了过多的噪声, 因此衡量效果不好. 实际应用时可以将不确定得分高的样本取出留给人类专家评判, 降低模型误判率, 提高模型效益.

    图 4  基于VBSGNN不确定得分改善预测效果评估
    Fig. 4  Evaluation of improving prediction effect based on VBSGNN uncertainty score

    基于式 (17)可输出每个样本的预测分布$ P\left( {{y_*}|{V_*},V} \right) $, 从而求得相应分布的均值、标准差, 可增加模型的可解释性, 基于NATO数据集进行了模型的不确定性估计. 如图5所示, 图中不确定范围即预测分布均值的置信区间, 通过均值加减两倍标准差得到, 表明所属类别预测概率值可能的波动范围. 基于对模型的不确定性估计, 可以研究每个类别预测正确以及预测不正确的样本标准偏差情况, 进而判断模型对于特定样本的预测情况. 例如图5中类别0与类别2的预测分布直方图中, 对于标准偏差较小且预测错误的样本, 说明模型对于该样本形成了较为稳定的“错误预测”, 意味着该样本可能是需要剔除的“问题样本”或者需要让人类专家人工评判. 结合对预测均值的不确定估计, 可以衡量模型对于样本中某个类别的预测质量. 例如类别5对应的30个样本, 模型都进行了准确预测, 且预测均值的不确定性范围也较小, 说明模型对该类样本有着可靠的预测性能. 类别3虽然不确定性范围较大, 但是模型同样都给出了准确预测, 说明模型的鲁棒性较好, 对于该类样本的预测效果也是可靠的.

    图 5  基于VBSGNN的模型不确定性估计 (NATO数据集)
    Fig. 5  Model uncertainty estimation based on the VBSGNN (NATO dataset)

    该实验在NATO数据集上进行, 多变量名称如表3所示. 由上文1.2节可知, VBSGNN可以学习到两种图结构, 一种是单类别图结构, 一种是多类别共享图结构. 实验中发现, 通过设定邻接矩阵的权重阈值对边进行过滤使得图结构变得稀疏, 有利于抑制噪声、过拟合现象, 改善了预测性能; 同时由于稀疏性, 提高了模型的鲁棒性以及训练速度. 图结构中每个节点对应一个变量, 神经网络每学习到一对边结构的同时会得到一个目标节点的权重, 同一个目标节点的权重值会被不断累加, 节点越大则表示该变量被赋予的权重越大, 围绕该变量建立起的边结构越稠密, 影响范围越大, 该变量对于最终预测任务也越重要, 如图6所示. 图7(a)为基于式(3)过滤了70%边数量的单类别图结构, 所描述的是类别为“折叠手臂”姿势的多变量之间的图结构关系, 对于“折叠手臂”类别的样本, 与之强相关的变量有左手尖Z坐标、右拇指X坐标、右肘部Z坐标、左肘部Z坐标、左肘部X坐标、右拇指Y坐标、右肘部X坐标, 说明这几个变量对于区分是否是“折叠手臂”姿势具有较好的效果.

    表 3  NATO图结构中24个节点对应的变量名称
    Table 3  Corresponding variable names of 24 nodes in graph structure based on NATO dataset
    手部传感器变量肘部传感器变量手腕传感器变量拇指传感器变量
    节点 0: 左手尖 X 坐标节点 6: 左肘部 X 坐标节点 12: 左手腕 X 坐标节点 18: 左拇指 X 坐标
    节点 1: 左手尖 Y 坐标节点 7: 左肘部 Y 坐标节点 13: 左手腕 Y 坐标节点 19: 左拇指 Y 坐标
    节点 2: 左手尖 Z 坐标节点 8: 左肘部 Z 坐标节点 14: 左手腕 Z 坐标节点 20: 左拇指 Z 坐标
    节点 3: 右手尖 X 坐标节点 9: 右肘部 X 坐标节点 15: 右手腕 X 坐标节点 21: 右拇指 X 坐标
    节点 4: 右手尖 Y 坐标节点 10: 右肘部 Y 坐标节点 16: 右手腕 Y 坐标节点 22: 右拇指 Y 坐标
    节点 5: 右手尖 Z 坐标节点 11: 右肘部 Z 坐标节点 17: 右手腕 Z 坐标节点 23: 右拇指 Z 坐标
    下载: 导出CSV 
    | 显示表格
    图 6  节点大小与边连接的关系 (NATO数据集)
    Fig. 6  The relationship between node size and edge connection (NATO dataset)
    图 7  神经网络学习到的单类别与多类别共享图结构 (NATO数据集)
    Fig. 7  Single class and multi class shared graph structures learned by neural networks (NATO dataset)

    图7(b)所示为基于批量数据学到的图结构, 该图结构描述了对于整体6个手势类别而言, 利于最终分类预测的强相关变量, 从该共享图结构可以发现, 对于整体分类任务而言, 强相关变量有右手尖X坐标、左手尖Y坐标、右手腕X坐标, 左手腕Z坐标、左肘部Z坐标、右手尖Z坐标、左手尖Z坐标、右拇指X坐标、右肘部Z坐标、右拇指Y坐标、右拇指Z坐标、左拇指Z坐标、左手腕Y坐标、右肘部X坐标. 基于该共享图结构可以进行变量筛选, 降低数据维度、提高模型训练效率. 该共享图结构中学习到的重要特征包含了单类别图结构中的部分强相关特征, 如左手尖Z坐标、右拇指X坐标等.

    本文提出了基于不确定性的多元时间序列分类算法框架. 基于该框架可学习单类别与多类别图结构, 实验结果可以为特征分析提供很好的可解释性; 我们的框架赋予了模型不确定性度量能力, 并首次提出考虑了样本内部类别相对不确定性的“相对方差”不确定性衡量方式, 基于该方法筛选不确定性样本有效地改善了预测效果; 该框架是一个“轻量化”框架, 由于是利用TAGCN提取出来的特征进行贝叶斯建模, 因此具有计算简捷、解耦性好等特点. 与此同时, 我们的工作也存在一些局限性. 首先本文所提算法仅适用于静态时间序列数据, 而难以用于随时间延续而增长的流式时间序列预测任务. 未来可以引入迁移学习以满足流式数据的快速计算需求. 其次, 本文提出了基于“相对方差”的概念来衡量样本的不确定性, 但目前缺乏理论上深入的分析, 未来可以考虑引入互信息的角度衡量不确定性.


  • 1 数据获取地址: http://timeseriesclassification.com
  • 图  1  MTS数据特征提取模型架构与优化流程

    Fig.  1  Feature extraction model architecture and optimization process of MTS data

    图  2  随机变分推断流程

    Fig.  2  The process of stochastic variational inference

    图  3  SGNN-T和VBSGNN的预测分布方差对比

    Fig.  3  Variance comparison of prediction distribution between SGNN-T and VBSGNN

    图  4  基于VBSGNN不确定得分改善预测效果评估

    Fig.  4  Evaluation of improving prediction effect based on VBSGNN uncertainty score

    图  5  基于VBSGNN的模型不确定性估计 (NATO数据集)

    Fig.  5  Model uncertainty estimation based on the VBSGNN (NATO dataset)

    图  6  节点大小与边连接的关系 (NATO数据集)

    Fig.  6  The relationship between node size and edge connection (NATO dataset)

    图  7  神经网络学习到的单类别与多类别共享图结构 (NATO数据集)

    Fig.  7  Single class and multi class shared graph structures learned by neural networks (NATO dataset)

    表  1  实验中使用的10个数据集概要

    Table  1  Summary of the 10 UEA datasets used in experimentation

    名称训练集大小测试集大小多变量维度时间维度类别个数
    AFAtrialFibrillation151526403
    FMFingerMovements31610028502
    HMDHandMovementDirection16074104004
    HBHeartbeat204205614052
    LIBLibras18018024515
    MIMotorImagery2781006430002
    NATONATOPS18018024516
    PDPenDigits749434982810
    SRS2SelfRegulationSCP2200180711522
    SWJStandWalkJump1215425003
    下载: 导出CSV

    表  2  在10个公开数据集上的不同算法准确率对比

    Table  2  Accuracy of different algorithms on 10 public datasets are compared

    算法数据集
    AFFMHMDHBLIBMINATOPDSRS2SWJWins
    ED0.2670.5190.2790.6200.8330.5100.8500.9730.4830.3330
    DTWI0.2670.5130.2970.6590.8940.3900.8500.9390.5330.2000
    DTWD0.2670.5290.2310.7170.8720.5000.8830.9770.5390.2000
    ED(norm)0.2000.5100.2780.6190.8330.5100.8500.9730.4830.3330
    DTWI(norm)0.2670.5200.2970.6580.8940.3900.8500.9390.5330.2000
    DTWD(norm)0.2670.5300.2310.7170.8700.5000.8830.9770.5390.2000
    WEASEL+MUSE0.4000.5500.3650.7270.8940.5000.8700.9480.4600.2670
    HIVE-COTE0.1330.5500.4460.7220.9000.6100.8890.9340.4610.3331
    MLSTM-FCN0.3330.5800.5270.6630.8500.5100.9000.9780.4720.4000
    TapNet0.3330.4700.3380.7510.8780.5900.9390.9800.5500.1330
    MTPool-M0.5330.5040.4860.7420.8280.5600.9280.9780.5500.5330
    MTPool-D0.4000.5300.4590.7370.8110.6000.9440.9770.5500.5330
    MTPool-S0.4000.5900.4730.7220.8110.5400.8890.9830.5390.6670
    MTPool-One0.4000.5700.4050.7170.8330.5400.8890.9700.5390.6000
    MTPool-Corr0.4000.5900.4190.7220.8280.5600.9040.9730.5500.6000
    MTPool0.4670.6200.4320.7420.8610.6300.9040.9830.6000.6670
    SGNN-S0.6000.6500.5410.7410.8890.6000.9610.9840.5890.6002
    SGNN-I0.5330.5500.5140.7410.8830.6400.9330.9740.5720.6001
    SGNN-A0.5330.5600.5000.7510.8780.5600.9610.9800.5500.6000
    SGNN-T0.6000.6400.6080.7560.8890.6300.9780.9850.6000.7337
    VBSGNN0.6670.6800.6220.7760.8720.6800.9720.9840.6220.7339
    下载: 导出CSV

    表  3  NATO图结构中24个节点对应的变量名称

    Table  3  Corresponding variable names of 24 nodes in graph structure based on NATO dataset

    手部传感器变量肘部传感器变量手腕传感器变量拇指传感器变量
    节点 0: 左手尖 X 坐标节点 6: 左肘部 X 坐标节点 12: 左手腕 X 坐标节点 18: 左拇指 X 坐标
    节点 1: 左手尖 Y 坐标节点 7: 左肘部 Y 坐标节点 13: 左手腕 Y 坐标节点 19: 左拇指 Y 坐标
    节点 2: 左手尖 Z 坐标节点 8: 左肘部 Z 坐标节点 14: 左手腕 Z 坐标节点 20: 左拇指 Z 坐标
    节点 3: 右手尖 X 坐标节点 9: 右肘部 X 坐标节点 15: 右手腕 X 坐标节点 21: 右拇指 X 坐标
    节点 4: 右手尖 Y 坐标节点 10: 右肘部 Y 坐标节点 16: 右手腕 Y 坐标节点 22: 右拇指 Y 坐标
    节点 5: 右手尖 Z 坐标节点 11: 右肘部 Z 坐标节点 17: 右手腕 Z 坐标节点 23: 右拇指 Z 坐标
    下载: 导出CSV
  • [1] 张熙来, 赵俭辉, 蔡波. 针对PM_2.5单时间序列数据的动态调整预测模型. 自动化学报, 2018, 44(10): 1790-1798

    Zhang Xi-Lai, Zhao Jian-Hui, Cai Bo. Prediction model with dynamic adjustment for single time series of PM_2.5. Acta Automatica Sinica, 2018, 44(10): 1790-1798
    [2] 徐任超, 阎威武, 王国良, 杨健程, 张曦. 基于周期性建模的时间序列预测方法及电价预测研究. 自动化学报, 2020, 46(6): 1136-1144

    Xu Ren-Chao, Yan Wei-Wu, Wang Guo-Liang, Yang Jian-Cheng, Zhang Xi. Time series forecasting based on seasonality modeling and its application to electricity price forecasting. Acta Automatica Sinica, 2020, 46(6): 1136-1144
    [3] Keogh E, Chu S, Hart D, Pazzani M. Segmenting time series: A survey and novel approach. Data Mining in Time Series Databases. Singapore: World Scientific, 2004. 1−21
    [4] Zhang X C, Gao Y F, Lin J, Lu C T. TapNet: Multivariate time series classification with attentional prototypical network. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 6845−6852
    [5] Wang X, Gao Y F, Lin J, Rangwala H, Mittu R. A machine learning approach to false alarm detection for critical arrhythmia alarms. In: Proceedings of the IEEE 14th International Conference on Machine Learning and Applications (ICMLA). Miami, USA: IEEE, 2015. 202−207
    [6] Minnen D, Starner T, Essa I, Isbell C. Discovering characteristic actions from on-body sensor data. In: Proceedings of the 10th IEEE International Symposium on Wearable Computers. Montreux, Switzerland: IEEE, 2006. 11−18
    [7] Rakthanmanon T, Keogh E. Fast shapelets: A scalable algorithm for discovering time series shapelets. In: Proceedings of the 2013 SIAM International Conference on Data Mining. Austin, USA: SIAM, 2013. 668−676
    [8] Seto S, Zhang W Y, Zhou Y C. Multivariate time series classification using dynamic time warping template selection for human activity recognition. In: Proceedings of the 2015 IEEE Symposium Series on Computational Intelligence. Cape Town, South Africa: IEEE, 2015. 1399−1406
    [9] Pei W J, Dibeklioğlu H, Tax D M J, Van Der Maaten L. Multivariate time-series classification using the hidden-unit logistic model. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(4): 920-931 doi: 10.1109/TNNLS.2017.2651018
    [10] Karim F, Majumdar S, Darabi H, Harford S. Multivariate LSTM-FCNs for time series classification. Neural Networks, 2019, 116: 237-245 doi: 10.1016/j.neunet.2019.04.014
    [11] Zheng Y, Liu Q, Chen E H, Ge Y, Zhao J L. Time series classification using multi-channels deep convolutional neural networks. In: Proceedings of the 15th International Conference on Web-Age Information Management. Macau, China: Springer, 2014. 298−310
    [12] 毛文涛, 蒋梦雪, 李源, 张仕光. 基于异常序列剔除的多变量时间序列结构化预测. 自动化学报, 2018, 44(4): 619-634

    Mao Wen-Tao, Jiang Meng-Xue, Li Yuan, Zhang Shi-Guang. Structural prediction of multivariate time series through outlier elimination. Acta Automatica Sinica, 2018, 44(4): 619-634
    [13] Wu Z H, Pan S R, Chen F W, Long G D, Zhang C Q, Yu P S. A comprehensive survey on graph neural networks. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(1): 4-24 doi: 10.1109/TNNLS.2020.2978386
    [14] Scarselli F, Gori M, Tsoi A C, Hagenbuchner M, Monfardini G. The graph neural network model. IEEE Transactions on Neural Networks, 2009, 20(1): 61-80 doi: 10.1109/TNN.2008.2005605
    [15] Cao D F, Wang Y J, Duan J Y, Zhang C, Zhu X, Huang C R, et al. Spectral temporal graph neural network for multivariate time-series forecasting. In: Proceedings of the 34th Advances in Neural Information Processing Systems. arXiv: 2103.07719
    [16] Wu Z H, Pan S R, Long G D, Jiang J, Chang X J, Zhang C Q. Connecting the dots: Multivariate time series forecasting with graph neural networks. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Virtual Event: ACM, 2020. 753−763
    [17] Duan Z H, Xu H Y, Wang Y Y, Huang Y D, Ren A N, Xu Z B, et al. Multivariate time-series classification with hierarchical variational graph pooling. arXiv preprint arXiv: 2010.05649, 2020.
    [18] Spadon G, Hong S D, Brandoli B, Matwin S, Rodrigues-Jr J F, Sun J M. Pay attention to evolution: Time series forecasting with deep graph-evolution learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, doi: 10.1109/TPAMI.2021.3076155
    [19] Hamilton W L, Ying R, Leskovec J. Inductive representation learning on large graphs. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 1025−1035
    [20] Xu K, Hu W H, Leskovec J, Jegelka S. How powerful are graph neural networks. In: Proceedings of the 7th International Conference on Learning Representations. New Orleans, USA: ICLR, 2019.
    [21] Veličković P, Cucurull C, Casanova A, Romero A, Liò P, Bengio Y. Graph attention networks. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018.
    [22] Tran D, Dusenberry M W, Van Der Wilk M, Hafner D. Bayesian layers: A module for neural network uncertainty. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2019. 14660−14672
    [23] Kendall A, Gal Y. What uncertainties do we need in Bayesian deep learning for computer vision. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: 2017. 5575−5585
    [24] Zhang C, Bütepage J, Kjellström H, Mandt S. Advances in variational inference. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 2008-2026 doi: 10.1109/TPAMI.2018.2889774
    [25] Zhang X L, Qian B Y, Cao S L, Li Y, Chen H, Zheng Y F. INPREM: An interpretable and trustworthy predictive model for healthcare. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Virtual Event: ACM, 2020. 450−460
    [26] Ranjan E, Sanyal S, Talukdar P P. ASAP: Adaptive structure aware pooling for learning hierarchical graph representations. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 5470−5477
    [27] Du J, Zhang S H, Wu G H, Moura J M F, Kar S. Topology adaptive graph convolutional networks. arXiv: 1710.10370, 2018.
    [28] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, et al. Going deeper with convolutions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 1−9
    [29] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors. Computer Science, 2012, 3(4): 212-223
    [30] Kingma D P, Ba J. Adam: A method for stochastic optimization. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015. 1−15
    [31] 季文强. 基于深度学习和不确定性量化的数据驱动剩余寿命预测方法研究 [硕士学位论文], 中国科学技术大学, 中国, 2020

    Ji Wen-Qiang. Research on Data-driven Remaining Useful Life Prediction Method Based on Deep Learning and Uncertainty Quantification [Master thesis], University of Science and Technology of China, China, 2020
    [32] Hoffman M D, Blei D M, Wang C, Paisley J W. Stochastic variational inference. Journal of Machine Learning Research, 2013, 14(1): 1303-1347
    [33] Zhang A Y, Zhou H H. Theoretical and computational guarantees of mean field variational inference for community detection. The Annals of Statistics, 2020, 48(5): 2575-2598
    [34] Shokoohi-Yekta M, Wang J, Keogh E J. On the non-trivial generalization of dynamic time warping to the multi-dimensional case. In: Proceedings of the 2015 SIAM International Conference on Data Mining. Vancouver, Canada: SIAM, 2015. 289−297
    [35] Bagnall A , Flynn M , Large J. A tale of two toolkits, report the third: On the usage and performance of HIVE-COTE v1.0. arXiv preprint arXiv: 2004.06069, 2020.
  • 期刊类型引用(3)

    1. 王威娜,李明莉. 基于Shapelets的多元时间序列分类方法. 科学技术与工程. 2025(01): 252-261 . 百度学术
    2. 李海林,张丽萍. 时间序列数据挖掘中的聚类研究综述. 电子科技大学学报. 2022(03): 416-424 . 百度学术
    3. 苏耘. 基于深度学习的时间序列分类方法综述. 电子技术与软件工程. 2022(14): 259-262 . 百度学术

    其他类型引用(0)

  • 加载中
  • 图(7) / 表(3)
    计量
    • 文章访问数:  1539
    • HTML全文浏览量:  1486
    • PDF下载量:  420
    • 被引次数: 3
    出版历程
    • 收稿日期:  2021-04-11
    • 录用日期:  2021-11-02
    • 网络出版日期:  2021-12-08
    • 刊出日期:  2023-04-20

    目录

    /

    返回文章
    返回