2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于原型学习与深度特征融合的脑功能连接分类方法研究

梁玉泽 冀俊忠

王彪新, 伍益明, 郑宁, 徐明. 虚假数据注入攻击下多机器人系统协同寻源. 自动化学报, 2024, 50(2): 403−416 doi: 10.16383/j.aas.c230252
引用本文: 梁玉泽, 冀俊忠. 基于原型学习与深度特征融合的脑功能连接分类方法研究. 自动化学报, 2022, 48(2): 504−514 doi: 10.16383/j.aas.c190747
Wang Biao-Xin, Wu Yi-Ming, Zheng Ning, Xu Ming. Multi-robot system cooperative source seeking under false data injection attack. Acta Automatica Sinica, 2024, 50(2): 403−416 doi: 10.16383/j.aas.c230252
Citation: Liang Yu-Ze, Ji Jun-Zhong. Brain functional connection classification method based on prototype learning and deep feature fusion. Acta Automatica Sinica, 2022, 48(2): 504−514 doi: 10.16383/j.aas.c190747

基于原型学习与深度特征融合的脑功能连接分类方法研究

doi: 10.16383/j.aas.c190747
基金项目: 国家自然科学基金(61672065)资助
详细信息
    作者简介:

    梁玉泽:北京工业大学信息学部硕士研究生. 主要研究方向为深度学习, 计算智能和脑科学. E-mail: liangyuze@emails.bjut.edu.cn

    冀俊忠:北京工业大学教授. 2004年获北京工业大学计算机应用技术专业博士学位, 2005年和2010 年分别在挪威科技大学、纽约州立大学布法罗分校做访问学者. 主要研究方向为机器学习, 计算智能, 生物信息学和脑科学. 本文通信作者. E-mail: jjz01@bjut.edu.cn

Brain Functional Connection Classification Method Based on Prototype Learning and Deep Feature Fusion

Funds: Supported by National Natural Science Foundation of China (61672065)
More Information
    Author Bio:

    LIANG Yu-Ze Master student at Beijing University of Technology. His research interest covers deep learning, computational intelligence and brain science

    JI Jun-Zhong Professor at Beijing University of Technology. He received his Ph. D. degree in computer science and application technology from Beijing University of Technology in 2004. He was a visiting scholar at Norwegian University of Science and Technology in 2005 and State University of New York at Buffalo in 2010, respectively. His research interest covers machine learning, computational intelligence, bioinformatics and brain science. Corresponding author of this paper

  • 摘要: 近年来, 基于深度学习的脑功能连接分类方法已成为一个研究热点. 为了进一步提高脑功能连接的分类准确率, 获得与疾病相关的鉴别性特征, 本文提出了一种基于原型学习与深度特征融合的脑功能连接分类方法. 该方法首先使用栈式自编码器从脑功能连接中提取从低层次到高层次的深度特征; 然后利用原型学习在自编码器的各隐层中提取表示样本类别信息的距离特征; 最后采用深度特征融合策略将这些距离特征融合, 并将该融合特征用于脑功能连接的类别标签预测. 在ABIDE数据集上的实验结果表明, 与其他同类方法相比, 该方法不仅具有较高的分类准确率, 而且能够更加准确地定位与疾病相关的脑区.
  • PID控制因算法结构简单、易于实现, 在实际过程控制中得到广泛应用. 但对具有强非线性和不确定性的工业过程, PID控制往往难以取得满意的控制效果. 基于模型的先进控制技术长期以来占据着控制理论与应用领域的主要方向. 然而, 近年来化工、冶金等生产制造业规模日益壮大, 生产工艺、设备变得越来越复杂[1], 使得依据物理和化学等机理建立精确数学模型对生产过程或设备进行监测和控制的传统方法变得越来越难以实现[2]. 当前, 在难以建立系统精确机理模型的情况下, 如何有效利用大量隐含过程和设备变化信息的离线、在线数据和知识, 实现对具有复杂动态特性和强非线性系统的自适应控制[3-4], 已成为控制领域亟待解决的问题.

    自适应控制的基本思想是能够不断感知被控对象变化来调整控制参数, 从而使系统运行于最佳状态[5]. 工业系统的规模化、集成化和复杂化, 促进了自适应控制技术的研究与应用. 根据自适应律的设计方法, 自适应控制主要分为基于稳定性理论的方案和基于参数估计的设计方案, 具有典型代表性的是模型参考自适应控制和自校正控制[6]. 自校正控制源于随机调节问题, 主要采用随机离散模型描述被控对象, 多用于工业过程控制[7]. 由于传统的自适应控制适用于参数缓慢变化的线性系统[8], 当系统具有参数不确定或强时变性, 尤其是面对强非线性系统时, 其效果难以令人满意. 近年来, “控制导向系统辨识”[9]的研究为非线性动态系统的自适应控制方法注入了动力. 以非线性控制系统设计为目标驱动的综合化系统辨识的关键问题之一是选择通用、便于控制器设计并具有高精度的非线性模型[10]. 传统的线性化模型显然无法满足动态变化复杂的非线性系统的控制要求. 现有用以解决非线性控制问题的模型处理方法[11]存在一定的局限性: 1)平衡点线性化模型提出用神经网络[12]弥补工作点附近的主导动态模型, 但由于神经网络本身存在结构和非线性映射复杂的特点, 其高复杂度和大计算量增加了控制器设计的难度; 2) 反馈输入输出线性化模型和反步法反馈线性化模型要求必须获取系统状态空间模型[13]; 3) 分段线性化模型的分段区间数和计算复杂度随系统的非线性强度上升. 然而, 线性化处理的模型仅能保证良好的局部性能, 存在难以描述全局特性的通病. NARMAX模型利用迟滞变量描述非线性动态模型[14]已具有较完善的理论架构, 但其模型复杂度高和求解困难, 很难在工业过程中在线运用. 因此寻找一种低成本的非线性建模方法是提升非线性自适应控制性能的关键.

    为实现对一般性非线性系统的辨识与控制, Chen等[15]提出将一类离散时间非线性动态系统表示成线性模型与高阶非线性项(未建模动态)的组合模型, 采用线性鲁棒自适应控制器、基于神经网络的非线性自适应控制器以及切换机制相结合的控制结构. 文献[16-18]放宽了这一组合控制结构的系统零动态渐近稳定条件, 并严格进行了稳定性及收敛性分析. 文献[16]将磨矿过程的动态特性变化用线性和高阶非线性的组合模型描述, 通过设计消除前一时刻未建模动态补偿信号的PI控制器, 结合一步最优前馈控制和提升技术, 提出了一种双速率区间控制算法. 文献[17]提出一种交替辨识方案对基于投影算法的线性模型和基于神经网络的高阶未建模动态项进行估计. 但由于神经网络结构复杂, 估计性能与初始参数的设置密切相关, 且网络训练容易陷入局部极小, 这种方法实际应用时往往性能不稳定. 文献[18]将自适应神经模糊系统用于设计非线性系统未建模动态补偿器, 采用一一映射[19]将可能无界的未建模动态的定义域转化成一个有界闭集, 保证了自适应神经模糊系统万能逼近特性, 避免了传统神经网络的固有缺陷对控制性能的影响.

    上述方法利用未建模动态项补偿线性控制器为解决非线性动态系统的自适应控制提供了有效方案, 实际应用时, 多采用线性模型和高阶非线性项交替辨识的方法. 控制性能与辨识模型质量密切相关, 但据我们所知, 还没有成果证明该交替辨识方法能够保证模型的整体无限逼近特性. 实际上, 交替辨识结果是由两个逼近器参与运算所得, 根据近似值运算的误差限理论[20]可得$ \zeta \left( {{{\left( {{x_1} + {x_2}} \right)}^*}} \right) \le \zeta \left( {{x_1}^*} \right) + \zeta \left( {{x_2}^*} \right) $, 因此, 此类交替辨识方法存在误差限增长的潜在可能, 不具有数值稳定性. 此外, 现有未建模动态模型建立过程中均没有考虑模型紧致性的问题, 为提高逼近性能往往构建的模型较为复杂, 使得在实际计算资源有限的工业控制器中难以使用.

    针对上述控制方法的不足, 本文提出了一种基于随机配置网络(Stochastic configuration network, SCN)数据驱动模型的自适应控制方法. 其通过设计具有直链与增强结构的SCN, 实现对系统线性部分和高阶非线性项的整体建模, 避免交替辨识中存在的数值不稳定性; 并根据监督增量学习方法构造增强节点, 利用离线数据实现模型结构和模型参数的自学习, 有效提高对非线性系统的建模精度及速度; 进一步结合一步超前最优策略设计基于未建模动态补偿的自适应控制器, 给出了控制方法的收敛性和稳定性分析, 并通过仿真验证所提方法的有效性.

    一类难以用精确数学模型描述的单输入单输出(Single-input single-output, SISO)非线性被控对象可以描述为

    $$ \begin{equation} \begin{split} y\left( {k + 1} \right) = \;&f\left( {y\left( k \right), \cdots,y\left( {k - {n_A} + 1} \right),} \right.\\ &\left. {{\rm{ }}u\left( k \right), \cdots ,u\left( {k - {n_B}} \right)} \right) \end{split}\ \end{equation} $$ (1)

    其中, $ u\left( k \right) $和$ y\left( k \right) $分别是系统输入和输出; k表示kT, T为控制周期; $f\left( \cdot \right) \in {\bf{R }}$表示未知的非线性函数; $ {n_A} $和$ {n_B} $为系统的阶次.

    定义$p\;\left( {p = {n_A} + {n_B} + 1} \right)$维输入向量$ {{{\boldsymbol{ X}}}_v}\left( k \right) $:

    $$ \begin{equation} \begin{split} {{{\boldsymbol{ X}}}_v}\left( k \right) =\;& \left[ {y\left( k \right), \cdots ,y\left( {k - {n_A} + 1} \right),} \right.\\ &{\left. {u\left( k \right), \cdots ,u\left( {k - {n_B}} \right)} \right]^{\rm T}} \end{split}\ \end{equation} $$ (2)

    则式(1)可表示为

    $$ \begin{equation} y\left( {k + 1} \right) = f\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)\ \end{equation} $$ (3)

    进一步可将上述一类SISO非线性被控对象描述为低阶线性模型和高阶非线性(未建模动态)项的组合模型[18], 即

    $$ \begin{equation} A\left( {{z^{ - 1}}} \right)y\left( {k + 1} \right) = B\left( {{z^{ - 1}}} \right)u\left( k \right) + v\left( {\left[ {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right]} \right)\ \end{equation} $$ (4)

    式中, $ A\left( {{z^{ - 1}}} \right) $和$ B\left( {{z^{ - 1}}} \right) $分别为

    $$ A\left( {{z^{ - 1}}} \right) = 1 + {a_1}{z^{ - 1}} + \cdots + {a_{{n_A}}}{z^{ - {n_A}}} $$
    $$ B\left( {{z^{ - 1}}} \right) = {b_0} + {b_1}{z^{ - 1}} + \cdots + {b_{{n_B}}}{z^{ - {n_B}}} $$

    其中, ${a_i}\;( {i = 1, \cdots ,{n_A}} )$ 和 ${b_j}\;( {j =0, 1, \cdots ,{n_B}} )$ 分别为非线性系统在工作点处的一阶Taylor系数. $ v( {[ {{{{\boldsymbol{ X}}}_v}( k )} ]} ) $是未建模动态项, 且$ v( {[ {{{{\boldsymbol{ X}}}_v}( k )} ]} ) $有界, 即$| {v( {[ {{{{\boldsymbol{ X}}}_v}( k )} ]} )} | \le M$, 其中$M $为一个已知的正常数, 表示误差上界.

    由此, 控制目标如下:

    1) 保证闭环系统输入输出信号为有界输入有界输出(Bounded-input bounded-output, BIBO)一致稳定;

    2) 系统输出$ y\left( k \right) $渐近跟踪参考输入$ {y_{sp}}\left( k \right) $的变化, 使其稳态误差小于或等于预先确定的值$\varepsilon\; ( \varepsilon > 0)$, 即$\mathop {\lim }\nolimits_{k \to \infty } \left| {y\left( k \right) - {y_{sp}}\left( k \right)} \right| \le \varepsilon$.

    本文针对由式(4)所示的非线性系统模型, 设计带有直链和增强结构的SCN, 通过监督机制与增量构造技术, 建立非线性系统数据驱动的建模方法. 如图1所示, SCN为一种具有扁平结构的随机神经网络[21], 其特点是: 1)引入监督机制对隐含层随机参数加以约束; 2) 根据数据自适应地调整随机范围. 基于上述两点, SCN有效保证了模型的快速学习特性、无限逼近能力和良好的泛化性能. 本文为进一步提高SCN的表达能力, 借鉴随机向量函数链神经网络结构[22], 构建了由直链和增强两部分组成的SCN, 用于建立非线性系统的数据驱动模型. 其中, 直链部分由输入层直接链接到输出层, 代表模型线性结构; 增强部分为隐含层, 代表模型的非线性结构, 决定模型的表达能力, 对模型精度具有较大的影响. 模型结构的调整在于增强部分, 其需要在监督约束下以增量方式构造, 同时随模型结构的调整不断更新模型参数, 实现模型结构和参数的同时自主调整.

    图 1  带直链的随机配置网络
    Fig. 1  Stochastic configuration network with direct link

    增量构造是一种同时解决网络模型结构和模型参数优化问题的有效方法. 本文从直链部分开始, 向模型中逐渐添加增强节点, 直至达到满意的模型精度为止, 实现了模型的自主学习. 在构造增强节点时根据监督机制将输入权值和偏置在可调区间内加以约束地随机分配, 并在每个增强节点加入网络时, 通过多次分配随机参数建立满足约束条件的候选“节点池”, 从中选出最佳增强节点以加快网络的收敛速度, 具体方法如下.

    考虑到过多的历史数据不仅对非线性系统的辨识精度提升作用不大, 反而会增加模型的复杂度和在线学习的负荷, 本文采用${{{\boldsymbol{ X}}}_v}( k ) = {[ {{x_1(k)}, \cdots ,{x_p(k)}} ]^{\rm T}} = {[ {y( k ), \cdots ,y( {k - {n_A} + 1} ),u( k ), \cdots ,u( {k - {n_B}} )} ]^{\rm T}}$作为输入. 此时, 过程模型可表示为

    $$ \begin{equation} {y_L}= \sum\limits_{j = 1}^p {{\beta _{1,j}}{x_j(k)}} + \sum\limits_{m = 1}^L {{\beta _{2,m}}{h_m}\left( {{w_m},{b_m},{{{\boldsymbol{ X}}}_v(k)}} \right)} \ \end{equation} $$ (5)

    其中, $ {y_L} $表示具有L个增强节点的模型输出; $ {{{\boldsymbol{ \beta}}} _1}= \left\{ {{\beta _{1,j}}} \right\} $$ \left( {j = 1,2, \cdots ,p} \right) $为第j个输入节点到输出节点间的输出权重; $ {{{\boldsymbol{ \beta}}} _2} = \left\{ {{\beta _{2,m}}} \right\} $$( m = 1,2, \cdots , L)$为第$ m $个增强节点到输出节点间的输出权重; $ {w_m} $和$ {b_m} $表示从输入层到第m个增强节点的输入权重和偏置, 即增强节点的随机参数; $ {h_m}\left( \cdot \right) $表示第m个增强节点的激活函数, 本文选用$ \rm sigmoid $函数. 为简单起见, 令增强节点${h_m}\,\left( {{w_m},{b_m},{{{\boldsymbol{ X}}}_v(k)}} \right)= h_m\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) .$

    由式(4)可得:

    $$ \begin{equation} \begin{split} y\left( {k + 1} \right) = \;& - \bar A\left( {{z^{ - 1}}} \right)y\left( k \right) + \\ & B\left( {{z^{ - 1}}} \right)u\left( k \right) + v\left( {\left[ {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right]} \right) \end{split}\ \end{equation} $$ (6)

    其中, $\bar A({z^{ - 1}}) = z\left[ {A({z^{ - 1}}) - 1} \right] = {a_1} + {a_2}{z^{ - 1}} + \cdots + {a_{{n_A}}}{z^{ - {n_A} + 1}}$.

    将式(5)进一步改写为

    $$ \begin{equation} \begin{split} {y_L} = \;&\sum\limits_{j = 1}^{{n_{{A}}}} {{\beta _{1,j}}{x_j}\left( k \right)} + \sum\limits_{j = {n_{{A}}} + 1}^p {{\beta _{1,j}}{x_j}\left( k \right)} \;+ \\ & \sum\limits_{m = 1}^L {{\beta _{2,m}}{h_m}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \end{split}\ \end{equation} $$ (7)

    由此可以看出, 网络的直链部分$\sum\nolimits_{j\, =\, 1}^{{n_{{A}}}} {{\beta _{1,j}}{x_j}\left( k \right)}$和$\sum\nolimits_{j \,=\, {n_{{A}}}\, + \,1}^p \,{{\beta _{1,j}}{x_j}\left( k \right)}$分别是对$ -\bar A\left( {{z^{ - 1}}} \right)y\left( k \right) $和$ B\left( {{z^{ - 1}}} \right)u\left( k \right) $的估计, 代表了模型的线性部分, 即

    $$ \begin{equation} \begin{split} &- {{\hat a}_1} - {{\hat a}_2}{z^{ - 1}} - \cdots - {{\hat a}_{{n_A}}}{z^{ - {n_A} + 1}} = \\ &\qquad{\beta _{1,1}} + {\beta _{1,2}}{z^{ - 1}} + \cdots + {\beta _{1,{n_A}}}{z^{ - {n_A} + 1}} \end{split}\ \end{equation} $$ (8)
    $$ \begin{equation} \begin{split} &{{\hat b}_0} + {{\hat b}_1}{z^{ - 1}} + \cdots + {{\hat b}_{{n_B}}}{z^{ - {n_B}}} = \\ &\qquad{\beta _{1,{n_A} + 1}} + {\beta _{1,{n_A} + 2}}{z^{ - 1}} + \cdots + {\beta _{1,{n_A} + {n_B} + 1}}{z^{ - {n_B}}} \end{split}\ \end{equation} $$ (9)

    模型的增强部分$ \sum\nolimits_{m = 1}^L {{\beta _{2,m}}{h_m}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} $为未建模动态项的估计量$ \hat v\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) $. 当前模型输出与真实值之间的残差表示为$ {e_L} = y - {y_L} $, 如果$ \left\| {{e_L}} \right\| $没有达到预先指定的误差容忍度, 需要在监督机制下生成一个新的增强节点$ {h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) $, 并计算新节点的输出权重$ {\beta _{L + 1}} $, 更新模型输出${y_{L + 1}} = {y_L} + {\beta _{2,L + 1}}{h_{L + 1}}( {{{{\boldsymbol{ X}}}_v}( k )} )$, 以使模型精度得到提高.

    模型构造从如下的直链部分开始

    $$ \begin{equation} y_0= \sum\limits_{j = 1}^p {{\beta _{1,j}}{x_j}(k)} \ \end{equation} $$ (10)

    随后, 向模型中加入如下的约束条件以逐个添加增强节点.

    $$ \begin{equation} {\langle {{e_L},{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \rangle ^2} \ge b_h^2{\delta _{L + 1}}\ \end{equation} $$ (11)

    其中, 假设${\rm{span}}(\Gamma) $是在 $ {L_2} $空间上稠密的, 使得 ${b_h} \in {{\bf R\;}^ + }$ 满足 $ \forall h\left( \cdot \right) \in \Gamma ,0 < \left\| {h\left( \cdot \right)} \right\| < {b_h} $. 此外, 给定非负实数序列$ {r_{L + 1}} = L/\left( {L + 1} \right) $和非负实数序列${\mu _{L + 1}} = \left( {1 - {r_{L + 1}}} \right)/\left( {L + 1} \right)$[23], 则当构造第$ L + 1 $个节点时, 定义$ {\delta _{L + 1}} = \left( {1 - r_{L + 1} - {\mu _{L + 1}}} \right){\left\| {{e_L}} \right\|^2} $, 则有

    $$ \begin{equation} \begin{split} {\xi _{L + 1}} = \;&\frac{{{{\langle {{e_L},{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \rangle }^2}}}{{{{\left\| {{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right\|}^2}}} \;- \\ &\left( {1 - {r_{L + 1}} - {\mu _{L + 1}}} \right)\langle {{e_{L + 1}},{e_{L + 1}}} \rangle \end{split}\ \end{equation} $$ (12)

    正值$ {\xi _{L + 1}} $越大, 则输入权值及偏置的配置效果越好. 首先在某个随机权重范围系下生成$ {T^{\max }} $组候选节点集合$\{ {h_{L + 1}^{\left( 1 \right)}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right), \cdots ,h_{L + 1}^{\left( {{T^{\max }}} \right)}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \}$, 并从中筛选出使得$ {\xi _{L + 1}} $为正值的最大的节点; 最后确定$ {\xi _{L + 1}} $最大时对应的输入权重和偏置为当前增强节点的最佳参数.

    决定模型精度的因素除模型结构外, 还包括模型参数即$ {{{\boldsymbol{ \beta}}} _L} $, 其求解过程采用两个阶段进行:

    1)构建增强节点前, 直链部分的输出函数可描述为式(10).

    通常情况下输入节点个数会远远小于离线数据的数量N, 即$ p \ll N $, 此时$ {{\boldsymbol{ X}}} $不是方阵, 可能找不到$ {{{\boldsymbol{ \beta}}} _1} $使$ {{\boldsymbol{ Y}}} = {{{\boldsymbol{ X}}}_v}{{{\boldsymbol{ \beta}}} _1} $成立, 为此采用最小二乘法进行求解, 即

    $$ \begin{equation} {{{\boldsymbol{ \beta}}} _1} = {\left( {{{\boldsymbol{X}}}_v^\mathrm{T}{{{\boldsymbol{ X}}}_v}} \right)^{ - 1}}{{\boldsymbol{ X}}}_v^\mathrm{T}{{\boldsymbol{ Y}}}\ \end{equation} $$ (13)

    2)当构造第$ {L + 1}$个增强节点时, 模型为

    $$ \begin{equation} {y_{L + 1}} = {y_L} + {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)\ \end{equation} $$ (14)

    通过使$ \left\| {y - {y_{L + 1}}} \right\| = 0 $进行参数寻优, 即

    $$ \begin{equation} y - \left( {{y_L} + {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right) = 0\ \end{equation} $$ (15)

    使等号两端同时平方并对$ {\beta _{2,L+1}} $求导, 可得

    $$ \begin{equation} \begin{split}&\frac{{ \partial {{\left[ {y - \left( {{y_L} + {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right)} \right]}^2}}}{{ \partial {\beta _{2,L + 1}}}} = \\ &\qquad\frac{{ \partial {{\left[ {{e_L} - {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right]}^2}}}{{ \partial {\beta _{2,L + 1}}}} = 0 \end{split}\ \end{equation} $$ (16)

    易证得新增增强节点的输出权重$ {\beta _{2,L + 1}} $为

    $$ \begin{equation} {\beta _{2,L + 1}} = \frac{{\langle {{e_L},{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \rangle }}{{{{\left\| {{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right\|}^2}}}\ \end{equation} $$ (17)

    下面给出SCN模型的收敛性证明.

    易知$ 0 < {r_{L + 1}} < 1 $, 由文献[21]可知${\left\| {e_{L + 1}^*} \right\|^2} \le \left( {{r_{L + 1}} + {\mu _{L + 1}}} \right)\left\| {e_L^*} \right\|$.

    考虑到以下不等式

    $$ \begin{equation} 1 - x < {\mathrm{e}^{ - x}},x > 0\ \end{equation} $$ (18)
    $$ \begin{equation} \sum\limits_{i = 1}^k {\frac{1}{{i + 1}} > } \ln \left( {1 + \frac{k}{2}} \right)\ \end{equation} $$ (19)
    $$ \begin{equation} \sum\limits_{i = 1}^k {\frac{1}{{{{\left( {i + 1} \right)}^2}}} < 1 - \frac{1}{{k + 1}}} \ \end{equation} $$ (20)

    可得:

    $$\begin{split} \left\| {e_{L + 1}^*} \right\|^2& \le \left( {{r_{L + 1}} + {\mu _{L + 1}}} \right){\left\| {e_L^*} \right\|^2} \le\\ &\mathop \Pi \limits_{i = 1}^{L} \left( {{r_i} + {\mu _i}} \right){\left\| {e_0^*} \right\|^2}\le \\ &\mathop \Pi \limits_{i = 1}^{L} \left( { \frac{i}{{i + 1}} + \frac{1}{{{{\left( {i + 1} \right)}^2}}}} \right){\left\| {e_0^*} \right\|^2}=\\ & \mathop \Pi \limits_{i = 1}^{L} \left( {1 - \frac{1}{{i + 1}}\left( {1 - \frac{1}{{i + 1}}} \right)} \right){\left\| {e_0^*} \right\|^2}<\\ & \exp \left( { - \sum\limits_{i = 1}^L {\left( { \frac{1}{{i + 1}}\left( {1 - \frac{1}{{i + 1}}} \right)} \right)} } \right){\left\| {e_0^*} \right\|^2}=\\ & \exp \left( { - \sum\limits_{i = 1}^L {\left( { \frac{1}{{i + 1}} - \frac{1}{{{{\left( {i + 1} \right)}^2}}}} \right)} } \right){\left\| {e_0^*} \right\|^2}<\end{split} $$
    $$\begin{split} & \exp \left( { - \ln \left( {1 + \frac{{L}}{2}} \right) + 1 - \frac{1}{{L + 1}}} \right){\left\| {e_0^*} \right\|^2}=\\ & \frac{2}{{L + 2}}\exp \left( { \frac{L}{{L + 1}}} \right){\left\| {e_0^*} \right\|^2} \end{split} $$ (21)

    可得: $\mathop {\lim }\nolimits_{L \to \infty } {\left\| {{e_{L + 1}}} \right\|^2} = 0,$ 即$\mathop {\lim }\nolimits_{L \to \infty } \left\| {{e_{L + 1}}} \right\| = 0$. 因此, 残差序列$ \left\| {{e_{L + 1}}} \right\| $单调递减且收敛于0.

    基于所提出的数据驱动模型设计自适应控制系统, 包括数据驱动线性自适应控制器和虚拟未建模动态补偿器, 如图2所示.

    图 2  基于SCN数据驱动模型的自适应控制方法结构图
    Fig. 2  Structure diagram of adaptive control method with SCN-based data-driven model

    非线性系统的控制输入为

    $$ \begin{equation} \begin{split} u\left( k \right) =\;& u\left( {k - 1} \right) + {k_P}\left[ {e\left( k \right) - e\left( {k - 1} \right)} \right] + \\ &{k_I}e\left( k \right) - K\left( {{z^{ - 1}}} \right)\hat v\left( k \right) \end{split}\ \end{equation} $$ (22)

    其中, 线性自适应控制器采用PI控制律, $ {k_P} $, $ {k_I} $为比例、积分系数. $ K\left( {{z^{ - 1}}} \right) $是$ {z^{ - 1}} $的多项式, $ e\left( k \right) $为跟踪误差, 定义为$ e\left( k \right) = {y_{sp}}\left( k \right) - y\left( k \right) $, $ {y_{sp}}\left( k \right) $为期望输出.

    将$ e\left( k \right) $表达式代入式(22), 由单位迟滞算子得

    $$ \begin{equation} \begin{split} H\left( {{z^{ - 1}}} \right)u\left( k \right) =\;& G\left( {{z^{ - 1}}} \right)\left[ {{y_{sp}}\left( k \right) - y\left( k \right)} \right] - \\ &K\left( {{z^{ - 1}}} \right)\hat v\left( k \right) \end{split}\ \end{equation} $$ (23)

    代入式(4), 有

    $$ \begin{equation} \begin{split} &\left[ {H\left( {{z^{ - 1}}} \right)\hat A\left( {{z^{ - 1}}} \right) + {z^{ - 1}}\hat B\left( {{z^{ - 1}}} \right)G\left( {{z^{ - 1}}} \right)} \right] y\left( {k + 1} \right) = \\ &\qquad\hat B\left( {{z^{ - 1}}} \right)G\left( {{z^{ - 1}}} \right){y_{sp}}(k) + \left[ {H\left( {{z^{ - 1}}} \right) - } \right.\\ &\qquad\left. {\hat B\left( {{z^{ - 1}}} \right)K\left( {{z^{ - 1}}} \right)} \right]\hat v\left( k \right) \\[-10pt]\end{split} \end{equation} $$ (24)

    其中, $ H\left( {{z^{ - 1}}} \right) = 1 - {z^ {- 1}} $, $ G\left( {{z^{ - 1}}} \right) = {g_0} + {g_1}{z^{ - 1}} $, 其中$ {g_0} = {k_P} + {k_I} $, $ {g_1} = - {k_P} $. $ \hat A\left( {{z^{ - 1}}} \right) $和$ \hat B\left( {{z^{ - 1}}} \right) $分别为低阶线性模型参数$ A\left( {{z^{ - 1}}} \right) $和$ B\left( {{z^{ - 1}}} \right) $的估计值, 可由SCN的直链部分获得. $ \hat v\left( k \right) $为虚拟未建模动态项, 可由SCN的增强部分获得.

    为消除非线性动态项的影响, 可令$H\left( {{z^{ - 1}}} \right) - \hat B\left( {{z^{ - 1}}} \right)K\left( {{z^{ - 1}}} \right) = 0$, 即可得到$ K\left( {{z^{ - 1}}} \right) $为

    $$ \begin{equation} K\left( {{z^{ - 1}}} \right) = \frac{{H\left( {{z^{ - 1}}} \right)}}{{\hat B\left( {{z^{ - 1}}} \right)}}\ \end{equation} $$ (25)

    采用一步超前最优控制策略[18]进行控制器设计. 被控对象$ k + 1 $时刻的输出$ \varphi \left( {k + 1} \right) $与理想输出$ {y^*}\left( {k + 1} \right) $的误差的方差最小时能够跟踪参考输入, 得到最小方差的调节器性能指标J

    $$ \begin{equation} \begin{split} J =\;& \left[ {P\left( {{z^{ - 1}}} \right)y\left( {k + 1} \right) - \bar G\left( {{z^{ - 1}}} \right){y_{sp}}\left( k \right) + } \right.\\ &{\left. {{\rm{ }}Q\left( {{z^{ - 1}}} \right)u\left( k \right) + \bar K\left( {{z^{ - 1}}} \right)\hat v\left( k \right)} \right]^2} \end{split}\ \end{equation} $$ (26)

    其中, $ P\left( {{z^{ - 1}}} \right) $、$ Q\left( {{z^{ - 1}}} \right) $均为关于$ {z^{ - 1}} $的加权多项式, $ \bar K\left( {{z^{ - 1}}} \right) $和$ \bar G\left( {{z^{ - 1}}} \right) $为控制器参数多项式.

    引入$ {\rm Diophantine} $方程

    $$ \begin{equation} P\left( {{z^{ - 1}}} \right) = F\left( {{z^{ - 1}}} \right)\hat A\left( {{z^{ - 1}}} \right) + {z^{ - 1}}\bar G\left( {{z^{ - 1}}} \right)\ \end{equation} $$ (27)

    其中, $ \bar F\left( {{z^{ - 1}}} \right) $为关于$ {z^{ - 1}} $的加权多项式.

    令$J=0 $, 得到使式(26)极小的最优控制律

    $$ \begin{equation} \begin{split}& \left[ {Q\left( {{z^{ - 1}}} \right) + F\left( {{z^{ - 1}}} \right)\hat B\left( {{z^{ - 1}}} \right)} \right]u\left( k \right) = \\ &\qquad\bar G \left( {{z^{ - 1}}} \right)\left[ {{y_{sp}}\left( k \right) - y\left( k \right)} \right] + \left[ {\bar K\left( {{z^{ - 1}}} \right) + } \right.\\ &\quad\;\;\left. {F\left( {{z^{ - 1}}} \right)} \right]\hat v\left( k \right) \end{split}\ \end{equation} $$ (28)

    对比式(23)和式(28), 控制器参数多项式有$K( {{z^{ - 1}}} ) = \bar K( {{z^{ - 1}}} ) + F(z^{-1}),$ $G( {{z^{ - 1}}} ) = \bar G( {{z^{ - 1}}} ),$ $\bar G( {{z^{ - 1}}} )$由Diophantine方程式(27)唯一确定.

    为求解上述控制器, 首先利用SCN数据驱动模型辨识非线性系统式(4), 即

    $$ \begin{equation} \begin{split} y\left( {k + 1} \right) = \;&\beta _{_{1,1}}^ky\left( k \right) + \cdots + \beta _{_{1,{n_A}}}^ky\left( {k - {n_A} + 1} \right) + \\ &\beta _{_{1,{n_A} + 1}}^ku\left( k \right) + \cdots + \\ &\beta _{_{1,{n_A} + {n_B} + 1}}^ku\left( {k - {n_B}} \right) + \\ &\beta _{2,1}^kh\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) + \cdots + \beta _{2,L}^kh\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) \end{split}\ \end{equation} $$ (29)

    提取线性模型参数的估计值$ \hat A\left( {{z^{ - 1}}} \right) $和$ \hat B\left( {{z^{ - 1}}} \right) $以及虚拟未建模动态项$ \hat v\left( {{{{{\boldsymbol{ X}}}_v}\left( k \right)} } \right) $, 则$k+1 $时刻系统表示为

    $$ \begin{equation} {\hat A^k}\left( {{z^{ - 1}}} \right)\hat y\left( {k + 1} \right) = {\hat B^k}\left( {{z^{ - 1}}} \right)u\left( k \right) + \hat v\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)\ \end{equation} $$ (30)

    其中, 线性模型参数多项式为

    $$ \begin{equation} \left\{ \begin{aligned} &{{\hat A}^k}\left( {{z^{ - 1}}} \right) = 1 + \beta _{_{1,1}}^k{z^{ - 1}} + \cdots + \beta _{_{1,{n_A}}}^k{z^{ - {n_A}}}\\ &{{\hat B}^k}\left( {{z^{ - 1}}} \right) = \beta _{_{1,{n_A} + 1}}^k + \cdots + \beta _{_{1,{n_A} + {n_B} + 1}}^k{z^{ - {n_B}}} \end{aligned} \right.\ \end{equation} $$ (31)

    未建模动态项估计值为

    $$ \begin{equation} \begin{split} \hat v\left( {{{{{\boldsymbol{ X}}}_v}\left( k \right)} } \right) = \;&\beta _{2,1}^k{h_1}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right){\rm{ + }} \cdots {\rm{ + }}\\ &\beta _{2,L}^k{h_L}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) \end{split}\ \end{equation} $$ (32)

    式中, $\beta _{2,1}^k$表示k时刻模型参数的更新值. 定义拓展输入$ {{\boldsymbol{ \Phi}}}=\left[ {{{{\boldsymbol{ X}}}_v};{{{\boldsymbol{ H}}}_v}} \right] $, 包括输入$ {{{\boldsymbol{ X}}}_v} $和增强节点输出${{\boldsymbol{H}}_v}$; 输出权值$ {{\boldsymbol{ \theta}}} = \left[ {{{{\boldsymbol{ \beta}}} _{_1}^k};{{{\boldsymbol{ \beta}}} _{_2}^k}} \right] $, ${{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}$表示低阶线性模型, ${{\boldsymbol{ H}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _2}$表示虚拟未建模动态项$ \hat v\left( k \right) $.

    $$ \begin{equation} \left\{ \begin{aligned} {{\boldsymbol{ \Phi}}} \left( k \right) =\;& \left[ {y\left( {k - 1} \right), \cdots ,y\left( {k - {n_A}} \right),} \right.\\ &u\left( {k - 1} \right), \cdots ,u\left( {k - {n_B} - 1} \right),\\ &{h_1}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right), \cdots ,{\left. {{h_L}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right]^\mathrm{T}}{\rm{ }}\\ {{\boldsymbol{ \theta}}} \left( k \right) =\;& \left[ {{{\boldsymbol{ \beta}}} _{_1}^k;{{\boldsymbol{ \beta}}} _{_2}^k} \right] = \left[ {\beta _{_{1,1}}^k, \cdots ,\beta _{_{1,{n_A} + {n_B} + 1}}^k,} \right.\\ &{\left. {\beta _{_{2,1}}^k, \cdots ,\beta _{_{2,L}}^k} \right]^\mathrm{T}} \end{aligned} \right.\ \end{equation} $$ (33)

    此时, 利用$k-1 $时刻的参数可得输出估计为

    $$ \begin{equation} \hat y\left( k \right) = {{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ \theta}}} \left( k-1 \right)\ \end{equation} $$ (34)

    本文采用一种递推方式在线更新$ {\boldsymbol{\theta}} $, 并引入遗忘因子以平衡新、旧数据的作用, 具体方法为

    $$ \begin{equation} \left\{ \begin{aligned} &{{\boldsymbol{ \theta}}} \left( k \right) = {{\boldsymbol{ \theta}}} \left( {k - 1} \right) + {{{\boldsymbol{ K}}}^*}\left( k \right)\;\times\\&{\kern 32pt}\left[ {y\left( k \right) - } \right. \left. {{{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ \theta}}}\left( {k - 1} \right)} \right]\\ &{{{\boldsymbol{ K}}}^*}\left( k \right) = {{\boldsymbol{ P}}}\left( {k - 1} \right){{\boldsymbol{ \Phi}}} \left( k \right)\;\times\\&{\kern 44pt}\left[ {\lambda + } \right. {\left. {{{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ P}}}\left( {k - 1} \right){{\boldsymbol{ \Phi}}} \left( k \right)} \right]^{ - 1}}\\ &{{\boldsymbol{ P}}}\left( k \right) = \frac{1}{\lambda }{\left[ {{{\boldsymbol{ I}}} - {{{\boldsymbol{ K}}}^*}\left( k \right){{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right)} \right]^{ - 1}}{{\boldsymbol{ P}}}\left( {k - 1} \right) \end{aligned} \right.\ \end{equation} $$ (35)

    其中, $ {{{\boldsymbol{ K}}}^*}\left( {k} \right) $为卡尔曼增益, $ {{\boldsymbol{ P}}}\left( k \right) $为协方差矩阵, 参数初值$ {{\boldsymbol{ \theta}}} \left( 0 \right) $和协方差矩阵初值$ {{\boldsymbol{ P}}}\left( 0 \right) $通过离线数据求解. $ \lambda $为遗忘因子, 其最佳取值范围一般为0.95 ~ 0.99, 在本文中通过实验确定.

    根据式(24)和式(25), 可得控制律为

    $$ \begin{equation} \begin{split} H\left( {{z^{ - 1}}} \right)u\left( k \right) =\;& {G^k}\left( {{z^{ - 1}}} \right)e\left( k \right) - \\ & \frac{{H\left( {{z^{ - 1}}} \right)}}{{{{\hat B}^k}\left( {{z^{ - 1}}} \right)}}\hat v\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) \end{split}\ \end{equation} $$ (36)

    具体实施步骤如下:

    步骤 1. 收集离线数据, 构建模型的原始输入 ${{{\boldsymbol{ X}}}_v}\left( k \right) \;=\; \left[ {y\left( k \right),\; \cdots ,\;y\left( {k - {n_A} \;+ \;1} \right),\;u\left( k \right),\; \cdots } \right. ,$ ${\left. {u\left( {k - {n_B}} \right)} \right]^\mathrm{T}}$, 初始化SCN模型, 计算递推初值$ {{\boldsymbol{ \theta}}} \left( 0 \right) $和$ {{\boldsymbol{ P}}}\left( 0 \right) $, 由式(13) 计算直链部分输出权重.

    步骤 2. 设置残差容忍度构造增强节点, 建立候选“节点池”并计算$ \delta $选取最佳节点, 由式(17)求解其输出权重, 当残差不满足要求时, 继续构造增强节点; 当残差满足要求时, 执行步骤3.

    步骤 3. 根据网络输出权重计算线性模型参数估计值$ {\hat A} $、$ {\hat B} $和虚拟未建模动态项估计值$ {\hat v} $, 通过式(28)计算初始控制输入.

    步骤 4. 在线采集在线运行数据构造k时刻模型输入向量$ {{\boldsymbol{ \Phi}}} \left( k \right) $, 选取合适的遗忘因子$ \lambda $, 根据式(35)在线递推更新$ {{\boldsymbol{ \theta}}} \left( k \right) $.

    步骤 5. 若系统仍在运行, 则返回步骤3, 计算下一步控制输入.

    步骤 6. 若系统停止运行, 则终止采集在线运行数据, 停止计算下一步控制输入.

    以下是数据驱动非线性自适应控制系统的稳定性和收敛性分析.

    引理 1. 当控制系统满足如下条件时具有稳定性和收敛性.

    1)参数多项式$ A\left( {{z^{ - 1}}} \right) $, $ B\left( {{z^{ - 1}}} \right) $ 在紧集 $ \Omega $中变化;

    2)高阶非线性项$ v\left( {{{{\boldsymbol{ X}}}_v \left( k \right)} } \right) $全局有界, 即$ \left\| {v\left[ \cdot \right]} \right\| \le M $.

    证明. 采用类似于文献[18]的方法可得条件1)和条件2)成立, 不再赘述.

    引理 2. SCN模型具有如下性质:

    1) $\mathop {\lim }\nolimits_{L \to {L_0}} {\left\| {{e_L}} \right\|^2} < {\varepsilon _L}$, $ {L_0} $为增强节点总数, $ {\varepsilon _L} $为残差容忍度.

    2)$\left| {\hat v\left( k \right)} \right| \le \left\| {y - {{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}} \right\| + \left\| {{\varepsilon _L}} \right\|$

    证明. 性质1)和性质2)由式(21)易证得.

    引理 3. 将SCN模型的两个组成部分式(32)和式(33)以及自适应组合控制律(36)应用到系统(31)时, 令$ e'\left( k \right) = y\left( k \right) - {{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ \theta}}} \left( k \right) $, 系统的输入输出动态特性方程如下(式中省去了多项式$z^{-1}$):

    $$ \begin{equation} \begin{split} &\left[ {\begin{array}{*{20}{c}} \begin{array}{c} H{{\hat A}^k} + {{\hat B}^k}{G^k}- {\Pi _1} \end{array}& {{\Pi _2}}\\ {{\Pi _3}}& \begin{array}{c} H{{\hat A}^k} + {{\hat B}^k}{G^k}+ {\Pi _4} \end{array} \end{array}} \right] \left[ {\begin{array}{*{20}{c}} {y\left( k \right)}\\ {u\left( k \right)} \end{array}} \right] = \\ &\qquad\left[ {\begin{array}{*{20}{c}} {{{\hat B}^k}{G^k}}\\ {{{\hat A}^k}{G^k}} \end{array}} \right]{y_{sp}}\left( k \right) + \left[ {\begin{array}{*{20}{c}} H\\ { - {G^k}} \end{array}} \right]e'\left( k \right)\;- \\ &\qquad\left[ {\begin{array}{*{20}{c}} {H{{\hat B}^k}{K^k} - H}\\ {H{{\hat A}^k}{K^k} + {G^k}} \end{array}} \right]\hat v\left( k \right) \end{split}\ \end{equation} $$ (37)

    其中, $\left\{ \begin{align} &{\Pi _1} = H{{\hat A}^k} - H{{\hat A}^{k - 1}}\\ &{\Pi _2} = H{{\hat B}^k} - H{{\hat B}^{k - 1}}\\&{\Pi _3} = {{\hat A}^k}{G^k} - {{\hat A}^{k - 1}}{G^k}\\&{\Pi _4} = {{\hat B}^k}{G^k} - {{\hat B}^{k - 1}}{G^k} \end{align} \right.$

    证明. 由文献[24]易得动态特性方程成立.

    定理 1. 通过实验的方法选取合适的残差容忍度, 使得未建模估计满足 $\left| {\hat v\left( k \right)} \right| \le M \le \left\| {{{\boldsymbol{ Y}}} - {{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}} \right\| + \left\| {{\varepsilon _L}} \right\|$. 在控制律(36)的作用下, 被控对象的输入输出一致有界, 即

    $$ \begin{equation} \left| {u\left( k \right)} \right| < \infty ,\left| {y\left( k \right)} \right| < \infty \ \end{equation} $$ (38)

    设定值$ {y_{sp}}(k) $与被控对象的输出值$ y(k) $之间的稳态误差$ e(k) $可满足

    $$ \begin{equation} \mathop {\lim }\limits_{k \to \infty } \left| {{y_{sp}}\left( k \right) - y\left( k \right)} \right| < \varepsilon \ \end{equation} $$ (39)

    其中, $ \varepsilon $表示稳态误差预设的上界值.

    证明. $ {e_0} $是实际值与线性模型部分的残差. 由式(21)可知$ \left\| {{e_L}} \right\|\left( {L = 0,1,2, \cdots ,{L_0}} \right) $是递减序列. 易证 $ \left| {\hat v\left( k \right)} \right| \le M,M = \left\| {{{\boldsymbol{ Y}}} - {{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}} \right\| + \left\| {{\varepsilon _L}} \right\| $.

    根据文献[24]中的方法, 由式(37)、$ {y_{sp}}(k) $以及$ \hat y\left( k \right) $的有界性可知, 存在正常数$ {c_1} $, $ {c_2} $满足

    $$ \begin{equation} \left| {u\left( k \right)} \right| \le {c_1} + {c_2}\mathop {\max }\limits_{0 \le k' < k} \left| {\hat y\left( {k'} \right)} \right| \le {c_1} + {c_2}{\varepsilon _L} < \infty \ \end{equation} $$ (40)

    由式(30)和式(37)以及$ {y_{sp}}(k) $和$ \hat y\left( k \right) $有界性可知, 存在正常数$ {c_3} $, $ {c_4} $满足

    $$ \begin{equation} \left| {y\left( k \right)} \right| \le {c_3} + {c_4}\mathop {\max }\limits_{0 \le k' < k} \left| {\hat y\left( {k'} \right)} \right| \le {c_3} + {c_4}{\varepsilon _L} < \infty \ \end{equation} $$ (41)

    综上可知, 系统的输入$ u\left( k \right) $和输出$ y\left( k \right) $有界. 由式(37)可得, 当$ k \to \infty $时, 有

    $$ \begin{equation} \begin{split} \mathop {\lim }\limits_{k \to \infty } \left| {e\left( k \right)} \right| =\;& \mathop {\lim }\limits_{k \to \infty } \left| {{y_{sp}}\left( k \right) - y\left( k \right)} \right|=\\ &\mathop {\lim }\limits_{k \to \infty } \left| { \frac{1}{{{{\hat B}^k}{G^k}}}} \right|\left| {\left( {H{{\hat A}^k} \;+ } \right.} \right.\\ &\left. {{\rm{ }}\left. {{{\hat B}^k}{G^k}} \right)y\left( k \right) - {{\hat B}^k}{G^k}{y_{sp}}\left( k \right)} \right| \end{split}\ \end{equation} $$ (42)

    变换得

    $$ \begin{equation} \begin{split} \mathop {\lim }\limits_{k \to \infty } \left| {e\left( k \right)} \right| =& \mathop {\lim }\limits_{k \to \infty } \left| { \frac{1}{{{{\hat B}^k}{G^k}}}} \right|\Big| {He'\left( k \right) + } \\ &{\Pi _1}y\left( k \right) - {\Pi _2}u\left( k \right) - {\rm{ }}\\ & {\left[ {{{\hat B}^k}{K^k} - H} \right]} \Big|\hat v\left( k \right) \end{split}\ \end{equation} $$ (43)

    由式(25)得$ {\hat B^k}{K^k} - H = 0 $, 同时根据定义易知${\lim _{k \to \infty }}\left| {{\Pi _i}} \right| = 0,i = 1,2$, $ {\lim _{k \to \infty }}\left| {He'\left( k \right)} \right| = 0 $. 则由式(37)以及$ {y_{sp}}(k) $, $ y(k) $, $ u\left( k \right) $和$ \hat v\left( k \right) $的有界性可知, 存在任意小的正数$ {\varepsilon} $, 满足

    $$ \mathop {\lim }\limits_{k \to \infty } \left| {{y_{sp}}\left( k \right) - y\left( k \right)} \right| < \varepsilon $$

    为验证所提出算法的有效性, 采用本文方法与传统方法[17-18]进行数值仿真对比实验. 控制目标是使得系统输出$ y\left( t \right) $跟踪参考轨迹$w\left( t \right) = 14.5\;( 3 < t \le 150)$和$w\left( t \right) =14\;( 150 < t \le 300)$. 选用以下离散时间的非线性系统作为被控对象:

    $$ \begin{equation} \begin{split} y\left( {t + 1} \right) =\;& 1.66y\left( t \right) - 0.66y\left( {t - 1} \right)+ \\ &u\left( t \right) + 1.26u\left( {t - 1} \right) + \\ &0.02\sin \left( {0.5y\left( t \right)u\left( t \right) + } \right.\\&\left. {2y\left( {t - 1} \right)u\left( {t - 1} \right)} \right) \end{split}\ \end{equation} $$ (44)

    由式(4)可得, $ A\left( {{z^{ - 1}}} \right) = 1 - 1.66{z^{ - 1}} + 0.66{z^{ - 2}} $, $ B\left( {{z^{ - 1}}} \right) = 1 + 1.26{z^{ - 1}} $. 易知式(44)中系统的非线性项$ 0.02\mathrm{sin}\left( {0.5y\left( t \right)u\left( t \right) + 2y\left( {t - 1} \right)u\left( {t - 1} \right)} \right) $全局有界. 设计线性自适应控制器时, 离线选择$ P( {{z^{ - 1}}} ) = 0.8 $, $ Q\left( {{z^{ - 1}}} \right) = 0.15 $.

    式(44)的被控对象模型为二阶的SISO系统, 故输入节点数为4, 输出节点为1. 在[10, 20]的区间内随机产生2 100个输入值$ u $, 从中顺序构建2 000组SCN模型的输入、输出向量. 选取本文方法的候选节点池为$ {T^{\max}} = 10 $, 根据离线数据构建增强节点数为9. $ {T^{\max}} $选取时既要避免建模耗时太长, 亦要避免候选节点数不足导致建模过程不稳定.

    在线学习时引进遗忘因子可以平衡新、旧数据的作用. 选择不同的$ \lambda $值, 可以调整对历史数据的遗忘效果. SCN结构确定后通过实验试凑的方法选取合适的遗忘因子, 设置遗忘因子$ \lambda $时在0.96 ~ 0.99的范围内取值. 如图3所示, 当$ \lambda $取值为0.98时收敛速度最快.

    图 3  不同遗忘因子下的控制系统输出
    Fig. 3  Output of control system under different forgetting factors

    SCN与传统RVFLNN (Random vector functional-link neural network)[21]建模性能的对比如表1所示, 在本文的数值仿真中, SCN模型在增强节点的个数、离线建模时间以及模型在线估计误差上的表现均优于传统RVFLNN模型. 在设定模型残差后, 由于引入监督机制选取增强节点的最优化参数, 使得其能够利用更少的节点逼近非线性模型. 离线建模时间除了受到硬件的约束外, 还受到模型结构以及网络计算负担的影响. 虽然在每次计算循环中, 候选池节点的构建及最优化参数的选取增加了计算负担, 但是获取了更轻量的模型结构以减少建模的时间. 此外, 由于SCN模型的增强节点在监督机制下选取, 避免了冗余节点和无效节点的产生, 因此在线辨识非线性系统的过程中获取了更小的误差.

    表 1  模型性能对比
    Table 1  Performance comparison of models
    模型性能指标 增强节点个数 离线建模
    时间 (s)
    模型在线平均
    绝对误差
    传统RVFLNN模型 17 0.257 19 0.004 6
    SCN模型 9 0.245 82 0.001 3
    下载: 导出CSV 
    | 显示表格

    为验证本文方法的性能优势, 下面将对经典的线性模型、BP的交替辨识模型[17]、ANFIS的交替辨识模型[18]与本文SCN数据驱动模型的自适应控制方法进行对比, 控制系统的性能如图4 ~ 7所示. 表2对比了基于4种不同模型的自适应控制方法中模型估计性能的量化指标: 模型估计值的平均绝对误差(Mean absolute error, MAE).

    图 4  控制系统输出对比
    Fig. 4  Comparison of the output of the control system
    图 5  控制系统输入对比
    Fig. 5  Comparison of the input of the control system
    图 6  控制系统输出误差对比
    Fig. 6  Comparison of the output errors of the control systems
    图 7  非线性系统模型估计误差对比
    Fig. 7  Comparison of model estimation errors of nonlinear systems
    表 2  控制系统模型估计性能对比
    Table 2  Comparison of performance of model estimates for control systems
    基于不同模型的自适应控制系统 ${\rm MAE}$
    基于线性模型的自适应控制 0.009 2
    基于BP交替辨识模型的自适应控制 0.007 0
    基于ANFIS交替辨识模型的自适应控制 0.005 1
    基于SCN数据模型的自适应控制 0.001 3
    下载: 导出CSV 
    | 显示表格

    图4图6可见, 非线性控制输入引入了虚拟未建模动态项补偿, 稳态误差小于基于线性模型的自适应控制, 其中本文方法的控制输出收敛速度和稳态性能最好. 由图5可见, 基于交替辨识模型的控制输入幅值波动较大. 本文研究的是基于模型估计的自适应控制方法, 控制性能依赖于模型估计的性能. 经典的线性化模型丢失了非线性系统中的动态特性, 使得模型估计误差偏大. 而交替辨识模型利用非线性系统输出与线性化后的线性模型输出之间的误差(未建模动态项)设计非线性补偿控制律, 辨识过程交替进行, 其数值不稳定性会导致模型估计的误差限上升, 从而影响了控制性能. 与上述方法不同的是, 本文SCN数据驱动模型利用其直链与增强结构直接逼近非线性系统, 避免了交替辨识数值不稳定性和误差限上升的风险, 从而提高了控制性能.

    将所提方法应用在典型一段重介质选煤过程, 建立以重介质液密度为输入, 灰分含量为输出的控制回路, 重介质选煤过程的机理模型取于文献[25].

    实例描述如下: 重介质选煤过程的产品规格初始值取灰分含量为14%的低灰煤. 重介质悬浮液的初始密度$ u\left( 0 \right) = 1\,530\,\mathrm{kg}/{\mathrm{m}^3} $, 给煤量为$ 8\,\mathrm{kg}/\mathrm{s} $, 同时设定[−1, 1]的随机动态变化量. 令$ \lambda $为0.97, $ P( {{z^{ - 1}}} ) = 0.8 $, $ Q( {{z^{ - 1}}} ) = 0.2 $. 灰分含量初始设定值为14%, 20 min时将设定值调整为12%, 40 min时将设定值调整为13%.

    采用本文提出的自适应控制方法跟踪灰分含量设定值, 利用SCN数据驱动模型和量测所得输入输出过程信息, 在设定值突变的工况下提高感知被控对象系统时变特性的性能, 调整控制器参数以修正控制输入, 最终保持系统的性能指标接近期望的性能指标, 控制效果如图8图9所示.

    图 8  基于SCN数据模型的灰分含量跟踪控制输出
    Fig. 8  Output of ash content tracking control based on SCN data-driven model
    图 9  基于SCN数据模型的重介质选煤灰分含量估计误差曲线
    Fig. 9  Estimation error curve of ash content in dense medium separation process based on SCN data model

    图8可知, 在基于SCN数据驱动模型的直链部分通过在线辨识灰分含量控制系统参数设计的自适应控制器基础上, 又通过增强部分估计高阶未建模动态项对灰分含量控制系统中的非线性部分进行补偿, 尽管给煤量中设置了随机扰动, 但控制系统输出的误差能够控制在一定范围内. 且在20 min和40 min改变灰分含量的期望值时, 灰分含量控制系统的跟踪效果好, 稳态误差小.

    图9为采用SCN数据驱动模型估计的重介质选煤灰分含量$ \hat y $与实际y 之间的估计误差$ \Delta y $, 可以看到, 当灰分含量的期望值改变时, SCN模型对灰分含量输出的估计出现较大的偏差, 但在几个采样周期后, 通过网络的学习使得估计误差缩小到 ±0.05%以内, SCN数据驱动模型建立的灰分含量控制系统估计模型学习速度快、准确性高, 能够满足虚拟未建模动态补偿自适应控制器的设计要求.

    通过分析与实验结果得出以下结论: 针对难以建立精确模型的非线性离散动态系统, 1)本文采用增量学习方法与监督机制, 对模型结构与模型参数进行同步更新优化, 保证了SCN数据驱动模型的无限逼近能力; 2) 设计了具有直链与增强结构的SCN, 提出了在一个控制周期内对动态非线性系统的低阶线性模型和高阶非线性未建模动态同时辨识的建模方法, 提高了对非线性受控系统的辨识精度; 3) 结合一步超前最优控制策略、控制系统的输入、输出数据和数据驱动建模的结果, 实现了线性控制器和未建模动态补偿器参数的自学习过程. 综上, 本文对一类未知动态非线性系统在模型辨识和自适应控制方面具有实用性和一定的优越性. 未来将基于本文方法从如下方面开展相关工作: 1) 引入多模型自适应控制的思想, 利用本文方法对被控对象构建合适的模型集, 覆盖被控对象的不确定性, 以应对模型参数发生突变的情况; 2)将本文方法的应用领域扩展至多输入−多输出的实际应用背景.

  • 图  1  基于原型学习与深度特征融合的脑功能连接分类方法结构图

    Fig.  1  Architecture of brain functional connection classification based on prototype learning and deep feature fusion

    图  2  基于原型学习的距离特征提取示意图

    Fig.  2  Illustration of the distance feature extraction based on prototype learning

    图  3  两种方法的特征分布对比

    Fig.  3  Comparison of the two methods' feature distribution

    图  4  两种方法得到的前十个重要连接

    Fig.  4  Top ten important connections learned by two methods

    图  5  算法1的训练曲线

    Fig.  5  Train plot of the algorithm 1

    图  6  七种方法的分类性能对比

    Fig.  6  Performance comparison of the seven methods

    表  1  不同隐层数量下的实验结果(%)

    Table  1  Experimental results of our method with different hidden layers (%)

    隐层数量 ACC SEN SPE PPV NPV
    1 68.03 70.97 65.00 67.69 68.42
    2 68.75 74.00 63.04 68.51 69.05
    3 69.30 73.60 65.30 68.97 69.90
    4 68.42 71.43 65.22 68.63 68.18
    5 68.23 72.73 63.41 68.08 68.42
    下载: 导出CSV

    表  2  不同原型数量下的实验结果(%)

    Table  2  Experimental results of our method with different number of prototypes (%)

    原型数量 ACC SEN SPE PPV NPV
    1 69.30 73.60 65.30 68.97 69.90
    2 69.23 71.11 67.39 68.10 70.45
    3 69.28 73.40 64.98 68.94 70.21
    4 69.18 73.10 64.52 68.70 70.22
    5 69.13 71.87 66.29 69.24 69.39
    下载: 导出CSV

    表  3  不同深度特征融合方式下的实验结果(%)

    Table  3  Experimental results of our method with different deep feature fusion modes (%)

    融合方式 ACC SEN SPE PPV NPV
    DFF-3 69.30 73.60 65.30 68.97 69.90
    DFF-1, 3 69.64 73.44 65.50 69.38 70.47
    DFF-2, 3 69.95 75.02 64.63 69.26 71.40
    DFF-all 70.30 74.80 65.68 69.80 71.70
    下载: 导出CSV
  • [1] 梁夏, 王金辉, 贺永. 人脑连接组研究: 脑结构网络和脑功能网络. 科学通报, 2010, 55(16): 1565-1583. doi: 10.1360/972009-2150

    Liang Xia, Wang Jin-Hui, He Yong. Human connectome: Structural and functional brain networks. Chinese Science Bulletin, 2010, 55(16): 1565-1583. doi: 10.1360/972009-2150
    [2] Craddock R C, Holtzheimer Ⅲ P E, Hu X P, Mayberg H S. Disease state prediction from resting state functional connectivity. Magnetic Resonance in Medicine: An Official Journal of the International Society for Magnetic Resonance in Medicine, 2009, 62(6): 1619–1628. doi: 10.1002/mrm.22159
    [3] Khazaee A, Ebrahimzadeh A, Babajani-Feremi A. Application of advanced machine learning methods on resting-state fMRI network for identification of mild cognitive impairment and Alzheimer's disease. Brain Imaging&Behavior, 2016, 10(3): 799-817.
    [4] Kim J, Calhoun V D, Shim E, Lee J H. Deep neural network with weight sparsity control and pre-training extracts hierarchical features and enhances classification performance: Evidence from whole-brain resting-state functional connectivity patterns of schizophrenia. Neuroimage, 2016, 124: 127-146. doi: 10.1016/j.neuroimage.2015.05.018
    [5] Hailong L, Parikh N A, Lili H. A Novel Transfer Learning Approach to Enhance Deep Neural Network Classification of Brain Functional Connectomes. Frontiers in Neuroscience, 2018, 12: 491. doi: 10.3389/fnins.2018.00491
    [6] Meszlényi R, Buza K, Vidnyánszky Z. Resting State fMRI Functional Connectivity-Based Classification Using a Convolutional Neural Network Architecture. Frontiers in Neuroinformatics, 2017, 11: 61. doi: 10.3389/fninf.2017.00061
    [7] Kawahara J, Brown C J, Miller S P, et al. BrainNetCNN: Convolutional Neural Networks for Brain Networks; Towards Predicting Neurodevelopment. Neuroimage, 2017, 146: 1038-1049. doi: 10.1016/j.neuroimage.2016.09.046
    [8] Sun Y, Wang X G, Tang X O. Deep learning face representation from predicting 10 000 classes. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA, IEEE. 2014: 1891−1898.
    [9] 张婷, 李玉鑑, 胡海鹤, 张亚红. 基于跨连卷积神经网络的性别分类模型. 自动化学报, 2016, 42(6): 858-865.

    Zhang T, Li Y J, Hu H H, Zhang Y H. A gender classification model based on cross-connected convolutional neural networks. Acta Automatica Sinica, 2016, 42(6): 858-865.
    [10] 李勇, 林小竹, 蒋梦莹. 基于跨连接Lenet-5网络的面部表情识别. 自动化学报, 2018, 44(1): 176-182.

    Li Y, Lin X Z, Jiang M Y. Facial expression recognition with cross-connect LeNet-5 network. Acta Automatica Sinica, 2018, 44(1): 176-182.
    [11] Yang H M, Zhang X Y, Yin F, Liu C L. Robust classification with convolutional prototype learning. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, UT, USA, IEEE. 2018: 3474−3482
    [12] Wang Z, Kong Z, Chang S, et al. Robust high dimensional stream classification with novel class detection. In: Proceedings of IEEE 35th International Conference on Data Engineering (ICDE). Macao, China, IEEE. 2019: 1418−1429
    [13] Zhang C Q, Han Z B, Cui Y J, Hu Q. CPM-Nets: Cross partial multi-view networks. In: Proceedings of Advances in Neural Information Processing Systems (NIPS). Vancouver, BC, Canada, Curran Associates, Inc. 2019: 4077−4087
    [14] Wang S, Zhan Y, Zhang Y, et al. Abnormal long-and short-range functional connectivity in adolescent-onset schizophrenia patients: a resting-state fMRI study. Progress in Neuro-Psychopharmacology and Biological Psychiatry, 2018, 81: 445-451. doi: 10.1016/j.pnpbp.2017.08.012
    [15] Bi X A, Wang Y, Shu Q, Sun Q, Xu Q. Classification of autism spectrum disorder using random support vector machine cluster. Frontiers in genetics, 2018, 9: 18. doi: 10.3389/fgene.2018.00018
    [16] Watanabe T, Kessler D, Scott C, Angstadt M, Sripada C. Disease prediction based on functional connectomes using a scalable and spatially-informed support vector machine. NeuroImage, 2014, 96: 183-202. doi: 10.1016/j.neuroimage.2014.03.067
    [17] Anibal S H, Franco A R, Craddock R C, Buchweitz A, Meneguzzi F. Identification of autism spectrum disorder using deep learning and the ABIDE dataset. NeuroImage: Clinical, 2018, 17(C): 16-23.
    [18] Ju R, Hu C, Zhou P. Early Diagnosis of Alzheimer's Disease Based on Resting-State Brain Networks and Deep Learning. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019, 16(1): 244-257. doi: 10.1109/TCBB.2017.2776910
    [19] Parisot S, Ktena S I, Ferrante E, et al. Disease prediction using graph convolutional networks: Application to Autism Spectrum Disorder and Alzheimer's disease. Medical image analysis, 2018, 48: 117-130. doi: 10.1016/j.media.2018.06.001
    [20] Brown C J, Kawahara J, Hamarneh G. Connectome priors in deep neural networks to predict autism. In: Proceedings of IEEE 15th International Symposium on Biomedical Imaging (ISBI). Washington, DC, USA, IEEE. 2018: 110−113
    [21] Xing X, Ji J, Yao Y. Convolutional neural network with element-wise filters to extract hierarchical topological features for brain networks. In: Proceedings of the 2018 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). Madrid, Spain, IEEE. 2018: 780−783
    [22] Kohonen T. The self-organizing map. Proceedings of the IEEE, 1990, 1(1–3): 1-6.
    [23] Kohonen T. Improved versions of learning vector quantization. In: Proceedings of International Joint Conference on Neural Networks (IJCNN). San Diego, CA, USA, IEEE. 1990: 545−550
    [24] Snell J, Swresky K, Zemel R. Prototypical networks for few-shot learning. In: Proceedings of Advances in neural information processing systems (NIPS). Long Beach, CA, USA, Curran Associates, Inc. 2017: 4077−4087
    [25] Boney R, Alexander I. Semi-supervised and active few-shot learning with prototypical networks. arXiv: 1711.10856, 2017.
    [26] Craddock R C, James G A, Holtzheimer Ⅲ P E, Hu X P, Mayberg H S. A whole brain fMRI atlas generated via spatially constrained spectral clustering. Human Brain Mapping, 2012, 33(8): 1914-1928. doi: 10.1002/hbm.21333
    [27] Wen Y, Zhang K, Li Z, Qiao Y. A Discriminative feature learning approach for deep face recognition. In: Proceedings of European Conference on Computer Vision (ECCV). Amsterdam, The Netherlands, Springer. 2016: 499−515
    [28] Simonyan K, Vedaldi A, Zisserman A. Deep inside convolutional networks: Visualising image classification models and saliency maps. arXiv: 1312.6034, 2013.
    [29] Meszlényi R J, Hermann P, Buza K, Gal V, Vidnyanszky Z. Resting state fmri functional connectivity analysis using dynamic time warping. Frontiers in neuroscience, 2017, 11: 75.
  • 期刊类型引用(3)

    1. 杨未婉,潘婷,郭晓乐,卢琦,王洪峰. 睡眠剥夺的静息态功能磁共振成像分析方法研究进展. 吉林中医药. 2024(02): 240-244 . 百度学术
    2. 李建彤,姚垚,高俊涛,张林. 基于HubGLasso注意力机制的脑网络分类研究. 计算机技术与发展. 2024(09): 131-137 . 百度学术
    3. 罗文静,胡金维,胡淑琼. 静息态功能磁共振成像在青光眼疾病中的应用研究进展. 国际眼科杂志. 2023(01): 67-70 . 百度学术

    其他类型引用(6)

  • 加载中
图(6) / 表(3)
计量
  • 文章访问数:  867
  • HTML全文浏览量:  427
  • PDF下载量:  242
  • 被引次数: 9
出版历程
  • 收稿日期:  2019-10-28
  • 录用日期:  2020-03-11
  • 网络出版日期:  2022-01-14
  • 刊出日期:  2022-02-18

目录

/

返回文章
返回