Multi-modal Video Action Recognition Method Based on Language-visual Contrastive Learning
-
摘要: 以对比语言−图像预训练(Contrastive language-image pre-training, CLIP)模型为基础, 提出一种面向视频行为识别的多模态模型, 该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展, 可更好地学习多模态视频表达. 具体地, 在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM), 首先, 由视频采样帧的类别分词做线性变换得到虚拟帧分词; 然后, 对其进行基于时序卷积和虚拟帧分词移位的时序建模操作, 有效建模视频中的时空变化信息; 最后, 在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module, VPM), 通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达. 在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果, 验证了该多模态模型的有效性和泛化性.Abstract: This paper presents a novel multi-modal model for video action recognition, which is built upon the contrastive language-image pre-training (CLIP) model. The presented model extends the CLIP model in two ways, i.e., incorporating temporal modeling in the visual encoder and leveraging prompt learning for language descriptions of action classes, to better learn multi-modal video representations. Specifically, we design a virtual-frame interaction module (VIM) within the visual encoder that transforms class tokens of sampled video frames into virtual-frame tokens through linear transformation, and then temporal modeling operations based on temporal convolution and virtual-frame token shift are performed to effectively model the spatio-temporal change information in the video. In the language branch, we propose a visual-reinforcement prompt module (VPM) that leverages an attention mechanism to fuse the visual information, carried by the class token and visual token which are both output by the visual encoder, to enhance the language representations. Fully-supervised experiments conducted on four publicly available video datasets, as well as few-shot and zero-shot experiments conducted on two video datasets, demonstrate the effectiveness and generalization capabilities of the proposed multi-modal model.
-
电熔镁砂熔炼过程如图1所示, 首先, 将菱镁矿石运送至原矿仓, 然后, 经电振给料机将菱镁矿石加入电熔镁炉中, 通过供电系统供电, 使A、B和C三相电极末端产生电弧, 菱镁矿石吸收电弧放出的热量融化, 形成熔池. 电流控制系统通过产生电流以控制电机, 使三相电极上下移动, 进而使三相电极电流跟踪其设定值, 随着菱镁矿石的不断加入以及不断融化, 熔池液面的高度不断上升, 当熔池的上表面达到炉口时, 熔炼过程结束. 最后, 使用工具车将电熔镁炉的炉体脱离熔炼工位, 进行冷却和处理, 从而获得电熔镁砂产品[1].
电熔镁砂熔炼过程以三相电机转动方向与频率为输入, 以三相电极电流为输出, 采用埋弧方式, 即将三相电极埋入原矿中, 边熔化边加料, 具有工艺机理复杂、关键参数不能测量、受原料成分和生产条件等不确定因素干扰、熔炼过程动态变化等综合复杂性. 针对电熔镁砂熔炼过程, 文献[1]根据能量守恒定律, 建立了电极电流动态模型.
该模型是一类具有未知参数的仿射型离散时间非线性模型, 针对该类模型, 从上个世纪90年代开始, 随着神经网络和模糊逻辑等智能工具的引入, 很多学者开展了相关控制方法的研究. 文献[2-3]为最早将多层神经网络和模糊逻辑引入到离散时间非线性仿射系统控制问题的文献. 在此基础上, 文献[4] 基于一定的假设条件, 提出了新的多层神经网络自适应控制方法, 并给出了收敛性结果; 文献[5-6]提出了基于神经网络与自适应动态规划的近似最优控制方法; 文献[7]提出了基于单层神经网络的有限水平单网络自适应控制方法; 文献[8]提出了基于神经网络的有限时间最优控制方法; 文献[9]提出了一种新颖的非策略交错式Q学习算法, 并证明了收敛性; 文献[10-11]提出了基于神经网络的容错控制方法;文献[12-13]提出了自适应模糊控制方法; 文献[14]利用两种模糊规则仿真网络建立系统动态模型, 提出了一种自适应控制方法; 文献[15]利用直接补偿法, 提出了一种多开关自适应线性化模糊控制算法, 用于延迟非严格反馈系统, 等等. 上述基于神经网络和模糊逻辑的非线性控制方法, 算法复杂, 很难在电熔镁炉等复杂的工业过程中进行实际应用. 为了实现电熔镁炉的自动控制, 文献[1]设计了带输出补偿的PID控制方法. 该方法根据电熔镁砂熔炼过程电极电流对象模型, 首先将其在平衡点附近线性化, 得到由线性模型和未知高阶非线性项组成的控制器设计模型, 然后根据该控制器设计模型设计带输出补偿的PID控制器, 最后用一步最优前馈控制律和一步最优调节律设计控制器参数. 由于没有考虑实际电机转动频率的约束, 并且控制器设计模型和对象模型之间具有较大的误差, 使得电流跟踪其设定值的误差较大.
本文通过引入中间变量并转化控制目标, 将电熔镁砂熔炼过程三相电极电流的复杂非线性控制问题简化为线性控制问题, 提出了一种简化的电极电流饱和约束一步最优控制方法. “一步最优控制”与“一步预报”相对应, 基于“一步预报”的控制即为“一步最优控制”[16]. 经典的一步最优控制算法不能应用于具有饱和约束并且存在外部干扰的实际非线性过程. 本文通过引入拉格朗日乘子向量和松弛向量验证了该方法的最优性. 此外, 当考虑电熔镁砂熔炼过程中存在的不可测外部干扰时, 在上述简化的电极电流饱和约束算法的基础上设计了高阶干扰观测器, 提出了具有高阶干扰观测器的简化算法.
本文的主要创新点如下:
1) 针对电熔镁砂熔炼过程三相电极电流的复杂非线性控制问题, 通过引入中间变量并转化控制目标, 将其转化为线性控制问题;
2) 通过引入拉格朗日乘子向量和松弛向量, 提出了一种简化的电极电流饱和约束一步最优控制方法, 解决了电熔镁砂熔炼过程中电极电流的饱和约束控制问题;
3) 设计高阶干扰观测器, 提出了基于高阶干扰观测器的饱和约束一步最优控制方法, 解决了电熔镁砂熔炼过程中存在不可测干扰的电极电流饱和约束控制问题.
1. 控制问题描述及控制目标转化
针对电熔镁砂熔炼过程, 文献[1]根据能量守恒定律, 建立了如下电极电流动态模型:
$$ {\dot{y}_{i}(t) = \frac{\sqrt{3}}{\pi} F_{i}(\cdot) y_{i}^{2}(t)-2 \sqrt{3} Q_{i}(\cdot) u_{i}(t) y_{i}^{2}(t)} $$ (1) 其中,
$ i=1,2,3 $ 分别表示A, B, C三相电极, 输入变量$ u_{i}(t) $ 为第$ i $ 相电机转动方向与频率, 输出变量$ y_{i}(t) $ 为第$ i $ 相电极电流,$F_{i}(\cdot)=\left[\dfrac{f_{1}(\cdot)}{r_{\rm{iarc }}^{2}}-\dfrac{f_{2}(\cdot)}{2 h_{\rm{ipool }}^{2}(\cdot)}\right] \dfrac{\dot{h}_{\rm{ipool }}(\cdot)}{U}$ 和$Q_{i}(\cdot)=\dfrac{f_{1}(\cdot)(1-s) r_{d}}{U r_{\rm iarc}^{2} p}$ 为非线性时变函数, 涉及的参数和函数的物理意义如表1所示.表 1 电极电流动态模型中参数的符号及物理意义Table 1 Symbols and meanings of parameters in dynamic model of electrode current符号 物理意义 $f_{1}(\cdot)$ 随原料颗粒长度和杂质成分变化的埋弧电阻率 $f_{2}(\cdot)$ 随原料颗粒长度和杂质成分变化的熔池电阻率 $r_{\rm {iarc}}$ 埋弧等效弧柱半径 $h_{\rm {ipool }}(\cdot)$ 随原料颗粒长度、杂质和电极电流变化的熔池高度 $U$ 熔炼电压 $p$ 电极极对数 $r_{d}$ 升降机构等效齿轮半径 $s$ 转差率 采用欧拉法对模型(1)进行离散化[17], 由于
$ F_{i}(\cdot) $ 和$ Q_{i}(\cdot) $ 随时间变化缓慢, 因此可假设其为常数, 由此产生的建模误差由电流的变化率$ \Delta y_{i}(k) $ 来补偿, 故式(1)的离散化模型可表示为式(2)[1]:$$ \begin{split} {y_i}(k + 1) =\;& {y_i}(k) + {\sigma _t}\frac{{\sqrt 3 }}{\pi }{F_i}y_i^2(k) - {\sigma _t} \times \\ &2\sqrt 3 {Q_i}{u_i}\left( k \right)y_i^2\left( k \right) + \Delta {y_i}\left( k \right) \end{split} $$ (2) 其中,
$\sigma_{t} = 1\ {\rm s}$ 为采样时间,$\Delta =1-z^{-1}$ ,$ z^{-1} $ 为单位后移算子.电熔镁砂熔炼过程中电极电流动态模型的输入变量
$ u_{i}(k) $ , 即三相电机转动方向和频率在实际运行过程中会受到执行器的饱和约束. 本文的目标为针对电熔镁砂熔炼过程电极电流动态模型(2), 设计饱和约束一步最优控制器, 使得电极电流跟踪其设定值$ y_{i}^{*}(k) $ , 并且控制器输出满足饱和约束, 即$ \left|u_{i}(k)\right| \leq m $ , 其中$ m>0 $ 为电机转动方向与频率的上界, 并且已知. 不失一般性, 首先针对式(2), 做如下假设:假设 1. 系统输出电极电流
$y_{i}(k) \neq 0 .$ 式(2)为仿射型非线性模型, 通过观察, 我们发现将式(2)等号左右两边同时除以
$ y_{i}^{2}(k) $ , 经过整理可以得到:$$ \begin{split} &\left[1 - 2{z^{ - 1}} + {z^{ - 2}}\right]\frac{{{y_i}(k + 1)}}{{y_i^2(k)}} = \\ &\quad - 2\sqrt 3 \times {Q_i}{u_i}(k) + \frac{{\sqrt 3 }}{\pi }{F_i} \end{split} $$ (3) 令
${{x}_{i}}(k+1)=\dfrac{{{y}_{i}}(k+1)}{y_{i}^{2}(k)}$ ,$A(z^{-1})=1-2 z^{-1}+z^{-2}$ ,$a_{i} =\dfrac{\sqrt{3}}{\pi}{F}_{i}$ ,$b_{i}=-2 \sqrt{3}{Q}_{i}$ , 则式(3)可以简化为:$$ A({{z}^{-1}}){{x}_{i}}(k+1) = {{b}_{i}}{{u}_{i}}(k)+{{a}_{i}} $$ (4) 不难验证, 当
$ \lim\nolimits_{k \rightarrow \infty}|x_{i}(k)-1 / y_{i}^{*}(k)| \rightarrow 0 $ 时,$ \lim\nolimits_{k \rightarrow \infty}|y_{i}(k)-y_{i}^{*}(k)| \rightarrow 0 $ . 因此本文的控制目标可以转化为: 针对模型(4), 设计控制器使得$ x_{i}(k) $ 跟踪其设定值$ 1 / y_{i}^{*}(k) $ , 并且控制器输出满足饱和约束, 即$ |u_{i}| \leq m $ .2. 饱和约束一步最优控制
针对式(4), 为了实现系统输出渐近跟踪其设定值, 尽可能降低控制输入幅值, 使其满足饱和约束, 同时消除
$ a_{i} $ 对系统输出的影响, 现引入一步超前最优性能指标:$$ \begin{split} J =\;& |P({z^{ - 1}}){x_i}(k + 1) - R({z^{ - 1}})\frac{1}{{y_i^*(k)}}+\\ & Q({z^{ - 1}}){u_i}(k) + S({z^{ - 1}}){a_i}{|^2} \end{split} $$ (5) 其中,
$ P(z^{-1}) $ 、$ R(z^{-1}) $ 、$ Q(z^{-1}) $ 和$ S(z^{-1}) $ 为加权多项式.$ P(z^{-1}) $ 和$ Q(z^{-1}) $ 的选择保证了闭环系统在输入饱和约束下的稳定性, 通过选择$ R(z^{-1}) $ 来消除跟踪误差, 通过选择$ S(z^{-1}) $ 实现对$ a_{i} $ 的静态补偿. 为了表述方便, 我们令$ Q(z^{-1}) = Q_{0}+z^{-1}\bar{Q}(z^{-1}) $ , 其中$ \bar{Q}(z^{-1}) = Q_{1}+Q_{2} z^{-1}+\cdots $ . 求解饱和约束一步最优控制律, 就是求解如下带不等式约束的条件极值问题:$$ {J^{*} = \min\limits_{|u_{i}(k)|\leq m} J} $$ (6) 采用拉格朗日松弛法, 通过引入拉格朗日乘子参数
$ \alpha \geq 0 $ 和$ \beta \geq 0 $ 以及松弛参数$ \mu $ 和$ {\boldsymbol{v}} $ , 将条件极值问题转化为如下不带约束的极值问题:$$ {J^{*} = \min\limits_{u_{i}(k), \alpha, \beta , \mu , v} J^{\prime}} $$ (7) 其中,
$J' = J+\alpha[u_{i}(k)-m+\mu^{2}]+\beta[-u_{i}(k)- m+ v^{2}]$ .定理 1. 饱和约束一步最优控制律为:
$$ {u_{i}(k) = u_{i}^{\prime}(k)-\frac{\alpha-\beta}{2 D^{2}}} $$ (8) 其中,
$D=F b_{i}+Q_{0}$ ,$ u_{i}^{\prime}(k) $ 通过下式计算:$$ \begin{split} D{{u'}_i}\left( k \right) =\;& R\left( {{z^{ - 1}}} \right)\frac{1}{{y_i^*\left( k \right)}} - \bar Q({z^{ - 1}}){u_i}\left( {k - 1} \right)-\\ & G\left( {{z^{ - 1}}} \right){x_i}\left( k \right) - \left[ {F + S\left( {{z^{ - 1}}} \right)} \right]{a_i} \end{split} $$ (9) 当
$ |u_{i}^{\prime}(k)|< m $ 时,$\alpha=0$ ,$\beta =0$ ; 当$ u_{i}^{\prime}(k)\leq -m $ 时,$\alpha = 0$ ,$\beta=2 D^{2}[-m-u_{i}^{\prime}(k)]$ ; 当$ u_{i}^{\prime}(k) \geq m $ 时,$\alpha=2D^{2}[- m+u_{i}^{\prime}(k)]$ ,$\beta=0$ .证明. 引入Diophantine方程:
$$ {P\left(z^{-1}\right) = A\left(z^{-1}\right) F+z^{-1} G\left(z^{-1}\right)} $$ (10) 其中,
$ F $ 为常数,$ G\left(z^{-1}\right) $ 为1阶多项式. 用$ F $ 乘以式(4)等号左右两边, 并利用式(10), 可以得到:$$ \begin{split}P\left(z^{-1}\right) &x_{i}(k+1) = G\left(z^{-1}\right) x_{i}(k)+ \\ &F b_{i} u_{i}(k)+F a_{i}\end{split} $$ (11) 于是由式(7)和式(11)得
$ J^{\prime} $ 对$ u_{i}(k) $ 的偏导为:$$ \begin{split} &\frac{{\partial {J^\prime }}}{{\partial {u_i}(k)}} = 2\Bigg[ {P\left( {{z^{ - 1}}} \right){x_i}(k + 1) - R\left( {{z^{ - 1}}} \right)\frac{1}{{y_i^*(k)}} + } \\ & \quad {Q\left( {{z^{ - 1}}} \right){u_i}(k) + S\left( {{z^{ - 1}}} \right){a_i}} \Bigg]\left( {F{b_i} + {Q_0}} \right) + \alpha - \beta \end{split} $$ (12) 令
$ D = F b_{i}+Q_{0} $ , 并将式(11)代入式(12), 则$$ \begin{split} \frac{\partial {{J}^{'}}}{\partial {{u}_{i}}\left( k \right)} = \;&2D\bigg[D{{u}_{i}}\left( k \right)+\bar{Q}\left( {{z}^{-1}} \right){{u}_{i}}\left( k-1 \right)+ \\ &G\left( {{z}^{-1}} \right){{x}_{i}}\left( k \right)-R\left( {{z}^{-1}} \right)\frac{1}{y_{i}^{*}\left( k \right)}+\\ &\left[ S\left( {{z}^{-1}} \right)+F \right]{{a}_{i}}+\frac{\alpha -\beta }{2D}\bigg] \end{split}\tag{13a} $$ $ J^{\prime} $ 对$ \alpha $ 、$ \beta $ 、$ \mu $ 和$ v $ 的偏导分别为:$$ {\frac{\partial J^{\prime}}{\partial \alpha} = u_{i}(k)-m+\mu^{2}}\tag{13b} $$ $$ {\frac{\partial J^{\prime}}{\partial \beta} = -u_{i}(k)-m+v^{2}}\tag{13c} $$ $$ {\frac{\partial J^{\prime}}{\partial \mu} = 2 \alpha \mu}\tag{13d} $$ $$ {\frac{\partial J^{\prime}}{\partial v} = 2 \beta v}\tag{13e} $$ 令式(13a) ~ (13e)为零, 则可以得到:
$$ {u_{i}(k) = u_{i}^{\prime}(k)-\frac{\alpha-\beta}{2 D^{2}}}\tag{14a} $$ $$ {u_{i}(k) = m-\mu^{2}} \tag{14b} $$ $$ {u_{i}(k) = -m+v^{2}} \tag{14c} $$ $$ {2\alpha \mu = 0} \tag{14d} $$ $$ {2 \beta v = 0}\tag{14e} $$ 由此可知: 当
$\alpha=0$ ,$\beta=0$ 时,$u_{i}(k)=u_{i}^{\prime}(k)$ , 此时,$\mu^{2} =m-u_{i}^{\prime}(k)$ ,$v^{2}=m+u_{i}^{\prime}(k)$ , 即$ \left|u_{i}^{\prime}(k)\right| < $ $ m $ ; 当$\alpha=0$ ,$v=0$ 时,$u_{i}(k)=-m$ , 此时,$\beta= $ $ 2D^{2}\left[-m-u_{i}^{\prime}(k)\right]$ ,$ \mu^{2} = 2 m $ , 即$ u_{i}^{\prime}(k) \leq-m $ ; 当$\mu=0$ ,$\beta=0$ 时,$u_{i}(k)= m$ , 此时,$\alpha=2 D^{2} [-m+ $ $ u_{i}^{\prime}(k)]$ ,$v^{2}=2 m$ , 即$ u_{i}^{\prime}(k) \geq m $ ; 当$\mu=0$ ,$v=0$ 时,$u_{i}(k)=\pm m$ , 矛盾, 故该情况无解. □定理 2. 对于有界的参考输入
$ y_{i}^{*}(k) $ , 若选择加权多项式$ P(z^{-1}) $ 和$ Q(z^{-1}) $ , 使得$P(z^{-1}) b_{i}+ Q(z^{-1})\times $ $ A(z^{-1})$ 稳定, 则当将控制器式(8)应用到被控对象式(2)或者式(4)时, 闭环系统输入、输出信号有界. 此外, 通过选择适当的加权多项式$ S(z^{-1}) $ 和$ R(z^{-1}) $ , 闭环系统输出$ y_{i}(k) $ 可以渐近跟踪其设定值$ y_{i}^{*}(k) $ .证明. 考虑如下两种情况:
1) 当
$ \left|u_{i}^{\prime}(k)\right| < m $ 时,$u_{i}(k)=u_{i}^{\prime}(k)$ . 此时将式(9)代入式(4), 并分别消去$ u_{i}(k) $ 和$ x_{i}(k) $ , 可以得到:$$ \begin{split} {x_i}(k + 1) = \;&\frac{{{b_i}R\left( {{z^{ - 1}}} \right)}}{{P\left( {{z^{ - 1}}} \right){b_i} + Q\left( {{z^{ - 1}}} \right)A\left( {{z^{ - 1}}} \right)}}\frac{1}{{y_i^*(k)}}+\\ & \frac{{Q\left( {{z^{ - 1}}} \right) - S\left( {{z^{ - 1}}} \right){b_i}}}{{P\left( {{z^{ - 1}}} \right){b_i} + Q\left( {{z^{ - 1}}} \right)A\left( {{z^{ - 1}}} \right)}}{a_i} \end{split}\tag{15a} $$ $$ \begin{split} {u_i}(k) =\;& \frac{{A\left( {{z^{ - 1}}} \right)R\left( {{z^{ - 1}}} \right)}}{{P\left( {{z^{ - 1}}} \right){b_i} + Q\left( {{z^{ - 1}}} \right)A\left( {{z^{ - 1}}} \right)}}\frac{1}{{y_i^*(k)}}-\\ & \frac{{{z^{ - 1}}G\left( {{z^{ - 1}}} \right) + \left[ {F + S\left( {{z^{ - 1}}} \right)} \right]A\left( {{z^{ - 1}}} \right)}}{{P\left( {{z^{ - 1}}} \right){b_i} + Q\left( {{z^{ - 1}}} \right)A\left( {{z^{ - 1}}} \right)}}{a_i} \end{split}\tag{15b} $$ 由于多项式
$ P\left(z^{-1}\right) b_{i}+Q\left(z^{-1}\right) A\left(z^{-1}\right) $ 稳定, 并且$ a_{i} $ 是常数, 因此根据关键技术引理[18], 由式(15a)和式(15b)可知, 对于有界的参考输入$ y^*_{i}(k) $ ,$ x_i(k) $ 和$ u_i(k) $ 都是有界的. 由于对于$ \forall k $ ,$ x_{i}(k) $ 有界且$ x_{i}(k) \neq 0 $ , 因此$y_{i}(k)=\dfrac{1}{z^{-2} x_{i}(k)}$ 有界, 故闭环系统输入、输出信号有界.为了实现稳态跟踪, 由式(15a)可知, 需要选择
$ S(z^{-1}) $ , 使$Q(z^{-1})-S(z^{-1}) b_{i}=0$ , 并选择$ R(z^{-1}) $ 使闭环系统的稳态增益为1.2) 当
$ u_{i}^{\prime}(k) \leq -m $ 或$ u_{i}^{\prime}(k)\geq m $ 时,$u_{i}(k)=m$ 或$ u_{i}(k) = -m $ . 由于$ A\left(z^{-1}\right) $ 有两个极点在单位圆上,$ u_{i}(k) $ 为常数时, 因此$ x_{i}(k) \rightarrow \infty $ [19]. 另一方面, 由于$x_{i}(k)=\dfrac{y_{i}(k)}{y_{i}^{2}(k-1)}$ ,$ y_{i}(k) \neq 0 $ 且有界, 因此$ x_{i}(k) $ 有界. 这与上述情况相矛盾, 故输入信号不发生饱和现象, 由1)可知, 闭环系统输入、输出信号有界, 并且可以实现稳态跟踪.由式(15a)可知, 为了使输出
$ x_{i}(k) $ 能够稳定跟踪设定值$\dfrac{1}{y_{i}^{*}(k)}$ , 多项式$ S\left(z^{-1}\right) $ 和$ R\left(z^{-1}\right) $ 必须满足:$$ {S(1) = \frac{Q(1)}{b_{i}}}\tag{16a} $$ $$ {R(1) = \frac{P(1) b_{i}+Q(1) A(1)}{b_{i}}}\tag{16b} $$ 当系统达到稳态时, 式(15a)可以写为:
$$ \begin{split} {x_i}(\infty ) = \;&\frac{{{b_i}R(1)}}{{P(1){b_i} + Q(1)A(1)}}\frac{1}{{y_i^*(\infty )}}+\\ & \frac{{Q(1) - S(1){b_i}}}{{P(1){b_i} + Q(1)A(1)}}{a_i} \end{split} $$ 由式(16a)和式(16b)可以得到
$x_{i}(\infty)-1 / y_{i}^{*}(\infty)= $ $ 0$ , 而根据式(3)可以得到$x_{i}(\infty)=1 / y_{i}(\infty)$ , 即$y_{i}(\infty)-y_{i}^{*}(\infty)=0$ , 因此闭环系统输出可以渐近跟踪其设定值. □注 1. 不难看出, 控制器(8)实际上是饱和约束控制
$ u_{i}(k) = \operatorname{sat}\left(u_{i}^{\prime}(k), m\right) $ 的解析形式. 控制系统结构如图2所示. 可以看出, 该控制系统由常规控制器、饱和约束控制器及被控对象三部分构成, 其中常规控制器由前馈控制和反馈控制两部分组成, 饱和约束控制器由拉格朗日乘子向量和饱和约束组成, 反馈信号为虚拟变量$ x_{i}(k) $ .3. 基于高阶干扰观测器的饱和约束一步最优控制
在电熔镁砂熔炼过程中, 通常会受到原料成分和生产条件等不确定性的外部干扰影响, 导致系统性能变差. 当考虑不可测外部干扰
$ d_{i}(k) $ 时, 经过整理可以得到与式(4)相对应的电熔镁砂熔炼过程对象模型如下:$$ {A\left(z^{-1}\right) x_{i}(k+1) = b_{i} u_{i}(k)+\tau_{i}(k)} $$ (17) 其中,
$ A\left(z^{-1}\right) $ ,$ x_{i}(k+1) $ ,$ b_{i} $ 以及$ u_{i}(k) $ 与式(4)中意义相同, 而$\tau_{i}(k) = a_{i}+\dfrac{d_{i}(k)}{y_{i}^{2}(k)}$ . 若$ \tau_{i}(k) $ 已知, 针对式(17)的控制器设计过程如第2节所述, 这里不再赘述. 实际上, 干扰$ d_{i}(k) $ 是未知的, 因此$ \tau_{i}(k) $ 也是未知的. 为了实现有效的控制, 设计如下高阶干扰观测器[20]:$$ \begin{split}\hat{d}_{i}(k) =\;& \hat{d}_{i}(k-1)+L_{0}\left[y_{i}(k)-\hat{y}_{i}(k)\right]+ \\ &\Delta \hat{d}_{i}(k-1)+L_{1}\left[\Delta y_{i}(k)-\Delta \hat{y}_{i}(k)\right] +\cdots+\\ &\Delta^{N} \hat{d}_{i}(k-1)+L_{N} \times \\ &{\left[\Delta^{N} y_{i}(k)-\Delta^{N} \hat{y}_{i}(k)\right]}\end{split}\tag{18a} $$ $$ \begin{split}& \hat{y}_{i}(k) = \bar{A}\left(z^{-1}\right) y_{i}(k-1)+y_{i}^{2}(k-1) \times \\ &\quad b_{i} u_{i}(k-1)+a_{i} y_{i}^{2}(k-1)+\hat{d}_{i}(k-1)\end{split}\tag{18b} $$ 其中,
$ N $ 为正整数, 是高阶干扰观测器的阶次,$ \hat{d}_{i}(k) $ 为$ k $ 时刻系统的干扰估计,$ \hat{y}_{i}(k) $ 为$ k $ 时刻系统的输出估计,$L_{j} \in {\bf R}$ 是常数, 其中$j=0,1,2, \cdots,N$ ,$\bar{A}(z^{-1})=z\left(1-A\left(z^{-1}\right)\right)$ .假设 2. 未知干扰
$ d_{i}(k) $ 有界, 并且其变化率满足$\Delta d_{i}(k) < 1.$ 定理 3. 若假设2成立, 并且存在常数
$ L_{j}, $ $j = 0,1,2, \cdots, N,$ 使得对于任意的$|z| > 1,$ 不等式$[1-z^{-1}E(z^{-1})+z^{-1} T(z^{-1})] \neq 0,$ 则对于任意小的正数$ \varepsilon > 0,$ 存在正整数$ N_{0}, $ 当$ N>N_{0} $ 时, 干扰估计误差$ |d_{i}(k)-\hat{d}_{i}(k)|<\varepsilon $ , 即$\lim _{N \rightarrow \infty}\left|d_{i}(k)\right|=\hat{d}_{i}(k)$ . 其中,$E\left(z^{-1}\right)=1+\Delta+\Delta^{2}+\cdots+\Delta^{N}$ ,$T\left(z^{-1}\right)= $ $ L_{0}+ L_{1} \Delta+L_{2}\Delta^{2}+\cdots+L_{N} \Delta^{N}.$ 证明. 对于任意
$ k $ 时刻的干扰$ d_{i}(k) $ , 可以将其扩展为:$$ \begin{split}d_{i}(k) =\;& \Delta^{N+1} d_{i}(k)+\Delta^{N} d_{i}(k-1)+ \ldots+\\ &\Delta d_{i}(k-1)+d_{i}(k-1)\end{split} $$ (19) 将式(19)和式(18a)相减, 整理, 可以得到:
$$ \begin{split} d_{i}(k)-\hat{d}_{i}(k) =\;& \Delta^{N+1} d_{i}(k)+\left[1+\Delta+\cdots+\Delta^{N}\right] \times\\ &\left[d_{i}(k-1)-\hat{d}_{i}(k-1)\right]-[L_{0}+\\ &L_{1} \Delta+ \cdots+L_{N} \Delta^{N}]\left[y_{i}(k)-\hat{y}_{i}(k)\right]\end{split} $$ (20) 由式(17)和式(18b)可以得到:
$$ {y_{i}(k)-\hat{y}_{i}(k) = d_{i}(k-1)-\hat{d}_{i}(k-1)} $$ (21) 将式(21)代入式(20), 可以得到:
$$ \begin{split} &\left\{1-z^{-1}\left[1+\Delta+\cdots+\Delta^{N}\right]+z^{-1} \times\right. \\ &\qquad \left.\left[L_{0}+L_{1} \Delta+\ldots+L_{N} \Delta^{N}\right]\right\} \times \\ &\qquad {\left[d_{i}(k)-\hat{d}_{i}(k)\right] = \Delta^{N+1} d_{i}(k)}\end{split} $$ (22) 令
$E\left(z^{-1}\right) = 1+\Delta+\cdots+\Delta^{N}$ ,$T\left(z^{-1}\right) = L_{0}+ $ $ L_{1} \Delta + \cdots+L_{N} \Delta^{N}$ , 则式(22)可写为:$$ \begin{split} & \left[ 1-{{z}^{-1}}E\left( {{z}^{-1}} \right)+{{z}^{-1}}T\left( {{z}^{-1}} \right) \right]\times \\ & \quad \left[ {{d}_{i}}\left( k \right)-{{{\hat{d}}}_{i}}\left( k \right) \right] = {{\Delta }^{N+1}}{{d}_{i}}\left( k \right) \end{split} $$ (23) 根据假设2, 当
$ N \rightarrow \infty $ 时,$ \Delta^{N+1} d_{i}(k) \rightarrow 0, $ 即$\lim\nolimits_{N \rightarrow \infty} \Delta^{N+1} d_{i}(k)=0,$ 又对于任意的$ |z|>1 $ 时,$ 1-z^{-1} E\left(z^{-1}\right)+z^{-1} T\left(z^{-1}\right) \neq 0 ,$ 则当$ N \rightarrow \infty $ 时,$ d_{i}(k) \rightarrow \hat{d}_{i}(k), $ 即$ \lim\nolimits_{N \rightarrow \infty} d_{i}(k) = \hat{d}_{i}(k). $ □根据第2节饱和约束一步最优控制设计过程可以得到基于高阶干扰观测器的饱和约束一步最优控制方程为:
$$ \begin{split} & D{{u}_{i}}\left( k \right) = \bigg\{ R\left( {{z}^{-1}} \right)\frac{1}{y_{i}^{*}\left( k \right)}-\bar{Q}\left( {{z}^{-1}} \right){{u}_{i}}\left( k-1 \right)- \\ & G\left( {{z}^{-1}} \right){{x}_{i}}\left( k \right)-\left[ F+S\left( {{z}^{-1}} \right) \right]{{{\hat{\tau }}}_{i}}\left( k \right) \bigg\}-\frac{\alpha -\beta }{2D} \end{split} $$ (24) 其中, 多项式
$ F $ 和$ G\left(z^{-1}\right) $ 可通过式(10)计算, 多项式$ S\left(z^{-1}\right) $ 和$ R\left(z^{-1}\right) $ 可以通过式(16a)和式(16b)计算,$ \hat{\tau}_{i}(k) $ 是$ \tau_{i}(k) $ 的估计值, 通过$\hat{\tau}_{i}(k) = a_{i}+ $ $ \dfrac{\hat{d}_{i}(k)}{y_{i}^{2}(k)}$ 计算,$ \hat{d}_{i}(k) $ 可以通过式(18a)计算.4. 仿真验证
4.1 饱和约束一步最优控制仿真
与文献[1]相同, 以
$ A $ 相电极为例, 在式(25)上叠加如图3所示的均值为0, 方差为$\sqrt{15\;300}$ 的随机噪声信号, 并且将其作为对象仿真模型.$$ \begin{split} y_{1}(k+1) =\;& 2y_{1}(k)-y_{1}(k-1)+ \\ &b_{1}u_{1}(k)y_{1}^{2}(k)+a_{1} y_{1}^{2}(k)\end{split} $$ (25) 其中,
$ a_{1}{ = }-7.4099 \times 10^{-5} $ ,$ b_{1}{ = }-2.4453 \times 10^{-3} $ . 分别采用本文提出的饱和约束一步最优控制方法、文献[1]所描述的带输出补偿的PID控制方法以及文献[21]所描述的数据驱动PID控制方法, 进行对比仿真实验.与文献[1]相同, 我们的控制目标为:
$$ {|e(k)| = \left|y_{1}^{*}(k)-y_{1}(k)\right|<2\;000,\quad 0<k<\infty} $$ (26) 其中, 电极电流参考输入为:
$y_{1}^{*}(k) = 15\;300 \mathrm{A}$ , 电极电流$ y_{1}(k) $ 和控制量$ u_{1}(k) $ 的约束为:$$ \begin{array}{l}12\;000<y_{1}(k)<17\;000,\quad -20<u_{1}(k)<20\end{array} $$ (27) 首先采用本文提出的饱和约束一步最优控制方法进行仿真实验. 选择
$ P\left(z^{-1}\right) = 1 $ ,$Q\left(z^{-1}\right) = 1 \times $ $ 10^{-4}\left(1-z^{-1}\right)$ , 根据式(10)、式(16a)和式(16b)可以得到A相电极电流饱和约束一步最优控制器的参数如下:$$ \left\{ {\begin{aligned} &{F{b_1} + Q\left( {{z^{ - 1}}} \right) = - 2.3453 \times {{10}^{ - 3}}}-\\ &\quad { 1.0000 \times {{10}^{ - 4}}{z^{ - 1}}}\\ &{G\left( {{z^{ - 1}}} \right) = 2.0000 - {z^{ - 1}}}\\ &{R\left( {{z^{ - 1}}} \right) = 0.9591 + 0.1227{z^{ - 1}} - 0.1227}\times\\ &\quad { {z^{ - 2}} + 0.0409{z^{ - 3}}} \end{aligned}} \right. $$ (28) 得到如图4所示的A相电极电流输出曲线.
然后将文献[1]所述的带输出补偿的PID控制方法应用到式(25), 得到如图5所示的A相电极电流输出曲线.
最后采用文献[21]所述的数据驱动PID控制方法进行仿真实验. 针对式(25), 设计如下控制器:
$$ \begin{split} {u_1}(k) =\;& {u_1}(k - 1) + {K_I}(k)e(k) - {K_P}(k)\times\\ & [{y_1}(k) - {y_1}(k - 1)] - {K_D}(k) \times \\ &[{y_1}(k) - 2{y_1}(k - 1) + {y_1}(k - 2)] \end{split} $$ (29) 其中,
$ K_{P}(k) $ 、$ K_{I}(k) $ 和$ K_{D}(k) $ 为$ \text {PID} $ 的时变参数, 利用CHR (Chien, Hrones and Reswick) PID参数整定方法得到各参数初始值为:$K_{P}(0)=-1.181,$ $K_{I}(0)=1.012,$ $K_{D}(0)=-0.324,$ 通过最速下降法在线校正PID参数. 将上述控制器应用到式(25), 得到如图6所示的A相电极电流输出曲线. 由图5和图6可知, 当采用文献[1]和文献[21]所述的控制方法时, 虽然A相电极电流能够围绕其设定值上下波动, 同时也没有超出饱和约束范围, 但是跟踪误差较大, 由图4可以看出, 当采用本文所提出的控制方法时, 跟踪误差明显降低.利用如下式(30a)和式(30b)所示的均方误差(Mean squared error, MSE)[22]和误差绝对值积分(Integrated absolute error, IAE)[1], 对以上三种控制方法进行比较, 得到如表2所示的性能评价表.
$$ {\rm{MSE}} = \frac{1}{{500}}\sum\limits_{k = 1}^{500} {{{\left[ {y_1^*(k) - {y_1}(k)} \right]}^2}} \tag{30a} $$ $$ {\rm{ IAE }} = \sum\limits_{k = 1}^{500} {\left| {y_1^*(k) - {y_1}(k)} \right|} \tag{30b} $$ 根据表2可以得到, 当采用文献[1]的方法时, 电极电流的
$ {\rm{MSE}} $ 为$ 0.4502 \times 10^{6} $ ,$ {\rm{IAE}} $ 为$ 0.2787 \times 10^{6} $ , 当采用文献[21]的方法时, 电极电流的$ {\rm{MSE}} $ 为$ 0.6631 \times $ $ 10^{6} $ ,$ {\rm{IAE}} $ 为$ 0.2115 \times 10^{6} $ , 而当采用本文方法时, 电极电流的$ {\rm{MSE}} $ 为$ 0.1294 \times 10^{6} $ ,$ {\rm{IAE}} $ 为$ 0.0679 \times 10^{6} $ . 将本文方法与文献[1]方法对比, 得到电极电流的$ {\rm{MSE}} $ 和$ {\rm{IAE}} $ 分别降低了$71.27\; {\text{%}}$ 和$75.64\;{\text{%}}$ ; 将本文方法与文献[21]方法对比, 得到电极电流的$ {\rm{MSE}} $ 和$ {\rm{IAE}} $ 分别降低了$80.48\; {\text{%}}$ 和$67.89\; {\text{%}}$ . 该结果说明本文方法相较于文献[1]和文献[21]所提出的方法, 能够较好地将电极电流控制在目标范围之内.为了进一步体现本文所提方法的优越性, 绘制如图7和图8所示的A相电极电流误差经验概率分布图. 从图7和图8可以看出, 当采用本文所提出的控制方法时, 电极电流误差超出控制目标(26)误差范围的概率更小.
4.2 基于高阶干扰观测器的一步最优控制仿真
同第4.1节所述, 以
$ A $ 相电极为例, 在式(25)上叠加如图3所示的随机噪声信号和不可测干扰$ d_1(k) $ , 并将其作为被控对象仿真模型:$$ \begin{split} y_{1}(k+1) =\;&2y_{1}(k)-y_{1}(k-1)+b_{1} \times \\ &u_{1}(k)y_{1}^{2}(k)+a_{1} y_{1}^{2}(k)+d_{1}(k)\end{split} $$ (31) 其中,
$a_{1} = -7.4099 \times 10^{-5} ,$ $b_{1} = -2.4453 \times 10^{-3},$ ${d_{1}(k) = 100 \sin (k \pi / 50)+100 \cos (k \pi / 60)}.$ 为进行比较, 首先采用第2节不考虑不可测干扰的饱和约束一步最优控制方法进行仿真实验. 运行时间从
$k=1$ 到$k=500,$ 控制目标如式(26), 控制器参数的选择如式(28), 采用控制器式(8)进行仿真验证, 得到如图9所示的电极电流输出曲线, 如图10所示的控制器输出曲线.利用式(30a)和式(30b)计算得到A相电极电流的MSE =
$ 0.4970\times 10^{6} $ , IAE =$ 0.0854\times10^{6} $ , 与第4.1节没有加入干扰时A相电极电流的$ {\rm{MSE}} $ 和$ {\rm{IAE}} $ 值相比增大, 因此, 有必要对未知干扰进行处理.首先, 采用本文设计的高阶干扰观测器式(18)对干扰
$ d_1(k) $ 进行估计. 根据定理3, 选择高阶干扰观测器的阶次$ N = 2 $ ,$ L_{0} $ ,$ L_{1} $ 和$ L_{2} $ 分别为:$$ L_{0} = 0.8411,\;L_{1} = 0.9960,\;L_{2} = 1.000 $$ 则
$ 1-z^{-1} E\left(z^{-1}\right)+z^{-1} T\left(z^{-1}\right) = 0 $ 的零点:$$z_{1} = 0.1328,\;z_{2} = 0.0301$$ 满足定理3不等式零点在单位圆内的要求. 其他控制器参数选择如式(28).
采用控制器式(24)进行仿真实验, 得到如图11所示的A相电极电流输出曲线, 如图12所示的控制器输出曲线, 对未知干扰
$ d_{1} $ 的估计如图13所示.为验证高阶干扰观测器具有较小的响应时间, 我们做了与文献[23]所述方法的仿真对比实验, 对比结果如图13所示. 图中
$ d_{1} $ 是干扰的实际值,$ \hat d_{1,1} $ 是采用本文设计的高阶干扰观测器得到的估计值,$ \hat d_{1,2} $ 是采用文献[23]方法得到的估计值. 由图13可以看到, 与采用文献[23]方法的估计值相对比, 得到采用本文设计的高阶干扰观测器具有较小的响应时间.为了与文献[24]所述的自抗扰输出反馈控制方法进行对比, 首先将电熔镁砂熔炼过程输入输出模型(31)式转化成如下状态空间模型:
$$ \left\{ \begin{aligned} &{z_1}\left( {k + 1} \right) = {z_2}\left( k \right)\\ &{z_2}\left( {k + 1} \right) = 2{z_2}\left( k \right) - {z_1}\left( k \right) + {b_1} \times \\ &\;\;\;\;{u_1}\left( k \right)z_2^2\left( k \right) + {a_1}z_2^2\left( k \right) + {d_1}\left( k \right) \end{aligned} \right. $$ (32) 其中,
$ z_{1}(k) = y_{1}(k) $ ,$ z_{2}(k) = y_{1}(k+1) $ , 并设计如下输出反馈控制器:$$ {u_1}\left( k \right) = - {\hat z_1}\left( k \right) + 2{\hat z_2}\left( k \right) + {\hat z_3}\left( k \right) $$ (33) 其中,
$ \hat z_1(k) $ 、$ \hat z_2(k) $ 和$ \hat z_3(k) $ 由如下扩展观测器得到[24]:$$ \left\{ {\begin{aligned} {{\hat z}_1}(k + 1) =\;& {{\hat z}_2}(k) + 300\left( {{y_1}(k) - {{\hat z}_1}(k)} \right)\\ &{ 0.01\varphi \left( {{{10}^4}\left( {{y_1}(k) - {{\hat z}_1}(k)} \right)} \right)}\\ {{\hat z}_2}(k + 1) =\;& {{\hat z}_3}(k) + 3 \times {{10}^4}\left( {{y_1}(k)} \right.-\\ &\left. { {{\hat z}_1}(k)} \right) + {u_1}(k)\\ {{\hat z}_3}(k + 1) =\;& {{10}^6}({y_1}(k) - {{\hat z}_1}(k)) \end{aligned}} \right. $$ (34) 其中,
$ \varphi(\cdot) $ 是分段函数, 与文献[24]中表达式相同. 将上述算法应用到式(31), 得到如图14所示的A相电极电流输出曲线, 如图15所示的控制器输出曲线.采用性能评价指标MSE和IAE对加入不可测扰动时的系统进行性能评价, 得到如表3所示的性能评价表.
Table 3 Performance evaluating of A-phase electrode current$y_1$ using the control method proposed in this paper and described in [24]${\rm {MSE}}$ ${\rm {IAE}}$ 采用本文第3节控制方法 $0.4970 \times 10^{6}$ $0.0854 \times 10^{6}$ 文献[24]的控制方法 $0.5906 \times 10^{6}$ $0.2879 \times 10^{6}$ 本文控制方法 $0.2951 \times 10^{6}$ $0.0784 \times 10^{6}$ 与第3节方法相比降低 $40.62 \;{\text{%} }$ $8.20\; {\text{%} }$ 与文献[24]方法相比降低 $50.03\; {\text{%} }$ $72.77\; {\text{%} }$ 根据表3可知, 当加入不可测干扰后, 根据第2节提出的电极电流饱和约束一步最优控制方法, 计算得到电极电流的
$ {\rm{MSE}} $ 为$ 0.4970 \times 10^6 $ ,$ {\rm{IAE}} $ 为$ 0.0854 \times 10^6 $ , 当采用文献[24]所述的方法时, 电极电流的$ {\rm{MSE}} $ 为$ 0.5906 \times 10^6 $ ,$ {\rm{IAE}} $ 为$ 0.2879 \times10^6 $ , 而当采用本文提出的控制方法时, 电极电流的MSE为$ 0.2951 \times 10^6 $ , IAE为$ 0.0784 \times 10^6 $ . 将本文提出的基于高阶干扰观测器的饱和约束一步最优控制方法与本文第2节提出的饱和约束一步最优控制方法对比, 计算得到电极电流的$ {\rm{MSE}} $ 和$ {\rm{IAE}} $ 分别降低了$ 40.62\;{\text{%}} $ 和$ 8.20\;{\text{%}} $ , 将本文所提出的基于高阶干扰观测器的饱和约束一步最优控制方法与文献[24]所描述的控制方法对比, 计算得到电极电流的$ {\rm{MSE}} $ 和$ {\rm{IAE}} $ 分别降低了$ 50.03\;{\text{%}} $ 和$ 72.77\; {\text{%}} $ . 该结果说明本文方法相较于文献[24]所提出的方法, 具有一定的优越性, 能够较好地将电极电流控制在目标范围之内, 并且设计的高阶干扰观测器可以较好地实现对未知干扰的估计.5. 结论
本文首先通过引入中间变量将复杂的电熔镁砂熔炼过程三相电极电流饱和约束控制问题简化为线性约束控制问题, 提出了一种简化的电极电流饱和约束一步最优控制方法. 然后, 对熔炼过程可能存在的不可测干扰设计了高阶干扰观测器, 提出了基于高阶干扰观测器的电熔镁砂熔炼过程简化控制算法. 最后通过理论分析和仿真对比实验验证了本文所提方法的有效性和优越性. 由于本文所提方法针对的是电熔镁砂的单批加料过程, 在接下来的研究工作中, 我们会针对多批加料过程考虑如何设计有效的控制器使电极电流跟踪其设定值.
-
表 1 模型具有/不具有语言信息的消融研究(%)
Table 1 Ablation studies of the model w/wo language information (%)
方法 第1识别准确率 前5识别准确率 单模态变体 82.7 94.0 本文模型 85.7 (提升3.0) 97.2 (提升3.2) 表 2 本文模块的消融实验结果 (%)
Table 2 Ablation studies of the proposed modules (%)
模块 第1识别准确率 基线(CLIP-Mean) 84.0 基线 + VIM 84.6 (提升0.6) 基线 + VIM + GBM 84.8 (提升0.8) 基线 + VIM + GBM + VPM 85.7 (提升1.7) 表 3 提示学习方法的比较 (%)
Table 3 Comparisons of prompt learning methods (%)
方法 第1识别准确率 前5识别准确率 无 84.8 97.0 ActionCLIP 84.9 96.9 CoOp 85.5 97.1 本文模型 85.7 (提升0.9) 97.2 (提升0.2) 表 4 K400数据集上, 全监督实验结果
Table 4 Fully-supervised experiment results on K400 dataset
类别 方法(骨干网络) 预训练数据集 帧数 第1识别准确率(%) 前5识别准确率(%) 时间剪辑$\times $空间裁剪 GFLOPs 3D CNN I3D NL ImageNet 32 77.7 93.3 $ 10\times 3 $ 359.0 CorrNet — 32 79.2 — $ 10\times 3 $ 224.0 SlowFast (R101-NL) — 16 + 64 79.8 93.9 $ 10\times 3 $ 234.0 X3D-XXL — 16 80.4 94.6 $ 10\times 3 $ 144.0 2D CNN TSM ImageNet 16 74.7 91.4 $ 10\times 3 $ 65.0 TEA ImageNet 16 76.1 92.5 $ 10\times 3 $ 70.0 TEINet ImageNet 16 76.2 92.5 $ 10\times 3 $ 66.0 TDN ImageNet 8 + 16 79.4 93.9 $ 10\times 3 $ 198.0 ViT VTN (ViT-B) ImageNet 250 78.6 93.7 $ 1\times 1 $ 4218.0 ViViT$({\rm{L} } /16\times 2)$ JFT 32 83.5 95.5 $ 4\times 3 $ 3992.0 TimeSformer (L) ImageNet 96 80.7 94.7 $ 1\times 3 $ 2380.0 MViT (B,$64\times 3)$ — 64 81.2 95.1 $ 3\times 3 $ 455.0 Swin (L) ImageNet 32 83.1 95.9 $ 4\times 3 $ 604.0 EVL (ViT-B/16) WIT 8 82.9 — $ 3\times 1 $ 444.0 AIM (ViT-B/16) WIT 8 83.9 96.3 $ 3\times 1 $ 606.0 语言−视觉
对比学习PromptCLIP (A6) WIT 16 76.9 93.5 $ 5\times 1 $ — ActionCLIP (ViT-B/32) WIT 8 78.4 94.3 $ 1\times 1 $ 35.0 ActionCLIP (ViT-B/16) WIT 8 81.1 95.5 $ 1\times 1 $ 141.0 ActionCLIP (ViT-B/16) WIT 16 82.6 96.2 $ 10\times 3 $ 282.0 ActionCLIP (ViT-B/16) WIT 32 83.8 97.1 $ 10\times 3 $ 563.0 X-CLIP (ViT-B/32) WIT 8 80.4 95.0 $ 4\times 3 $ 39.0 X-CLIP (ViT-B/32) WIT 16 81.1 95.5 $ 4\times 3 $ 75.0 X-CLIP (ViT-B/16) WIT 8 83.8 96.7 $ 4\times 3 $ 145.0 本文模型 本文模型(ViT-B/32) WIT 8 80.5 95.1 $ 4\times 3 $ 39.8 本文模型(ViT-B/32) WIT 16 81.4 95.5 $ 4\times 3 $ 75.6 本文模型(ViT-B/32) WIT 32 83.1 95.7 $ 4\times 3 $ 144.2 本文模型(ViT-B/16) WIT 8 84.1 96.7 $ 4\times 3 $ 145.8 表 5 HMDB51和UCF101数据集上, 全监督实验结果
Table 5 Fully-supervised experiment results on HMDB51 and UCF101 datasets
方法(骨干网络) 帧数 UCF101 (%) HMDB51 (%) TSN (2D R50) 8 91.7 64.7 TBN (2D R34) 8 93.6 69.4 PPAC (2D R152) 20 94.9 69.8 TCP (2D TSN R50) 8 95.1 72.5 ARTNet (3D R18) 16 94.3 70.9 R3D (3D R50) 16 92.9 69.4 MCL (R (2 + 1) D) 16 93.4 69.1 ActionCLIP (ViT-B/16) 32 97.1 76.2 X-CLIP (ViT-B/32) 8 95.3 72.8 X-CLIP (ViT-B/16) 8 97.4 75.6 本文模型(ViT-B/32) 8 96.1 74.3 本文模型(ViT-B/16) 8 97.6 76.7 表 6 HMDB51和UCF101数据集上, 小样本实验结果 (%)
Table 6 Few-shot experiment results on HMDB51 and UCF101 datasets (%)
方法(骨干网络) HMDB51 UCF101 K = 2 K = 4 K = 8 K = 16 K = 2 K = 4 K = 8 K = 16 TSM 17.5 20.9 18.4 31.0 25.3 47.0 64.4 61.0 TimeSformer 19.6 40.6 49.4 55.4 48.5 75.6 83.7 89.4 Swin (B) 20.9 41.3 47.9 56.1 53.3 74.1 85.8 88.7 ActionCLIP (ViT-B/16) 43.7 51.2 55.6 64.2 73.7 80.2 86.3 89.8 X-CLIP (ViT-B/16) 49.5 54.6 57.7 65.3 76.3 81.4 85.9 89.4 本文模型(ViT-B/16) 49.6 54.9 58.8 65.5 76.4 82.1 86.7 90.1 表 7 HMDB51和UCF101数据集上, 零样本实验结果(%)
Table 7 Zero-shot experiment results on HMDB51 and UCF101 datasets (%)
方法(骨干网络) HMDB51 UCF101 ZSECOC 22.6 15.1 UR 24.4 17.5 TS-GCN 23.2 34.2 E2E 32.7 48.0 ER-ZSAR 35.3 51.8 ActionCLIP 41.9 66.6 X-CLIP (ViT-B/16) 43.5 70.9 本文模型(ViT-B/16) 44.0 72.6 A1 模型训练超参数
A1 Hyper-parameters for model training
超参数 全监督 小样本 零样本 VPM $ \alpha $ 0.1 0.1 0.1 VPM $ \beta $ 0.1 0.1 0.1 优化器 AdamW AdamW — 优化器$ \beta $值 (0.90, 0.98) (0.90, 0.98) — 批大小 256 64 256 学习率策略 cosine cosine — 预热轮数 5 5 — 基础学习率 8 $ \times\;10^{-6} $ 2 $ \times\;10^{-6} $ — 最小学习率 8 $ \times\;10^{-8} $ 2 $ \times\;10^{-8} $ — 轮数 30 50 — 随机翻转 0.5 0.5 0.5 多尺度裁剪 (1, 0.875,
0.75, 0.66)(1, 0.875,
0.75, 0.66)(1, 0.875,
0.75, 0.66)颜色抖动 0.8 0.8 0.8 灰度值 0.2 0.2 0.2 标签平滑 0.1 0.1 0.1 混合 0.8 0.8 0.8 切割混合 1.0 1.0 1.0 权重衰减 0.001 0.001 0.001 C1 小样本实验使用的随机样本
C1 Random examples used in few-shot experiment
数据集 $ K $值 随机样本在第1种划分中的编号 HMDB51 2 [22, 25] 4 [69, 9, 21, 36] 8 [44, 47, 64, 67, 69, 9, 21, 6] 16 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15] UCF101 2 [21, 48] 4 [2, 16, 23, 44] 8 [14, 20, 60, 27, 33, 9, 21, 32] 16 [14, 20, 60, 27, 33, 9, 21, 32, 8, 15, 1, 26, 38,
44, 60, 48] -
[1] 周波, 李俊峰. 结合目标检测的人体行为识别. 自动化学报, 2020, 46(9): 1961-1970 doi: 10.16383/j.aas.c180848Zhou Bo, Li Jun-Feng. Human action recognition combined with object detection. Acta Automatica Sinica, 2020, 46(9): 1961-1970 doi: 10.16383/j.aas.c180848 [2] 杨天金, 侯振杰, 李兴, 梁久祯, 宦娟, 郑纪翔. 多聚点子空间下的时空信息融合及其在行为识别中的应用. 自动化学报, 2022, 48(11): 2823-2835 doi: 10.16383/j.aas.c190327Yang Tian-Jin, Hou Zhen-Jie, Li Xing, Liang Jiu-Zhen, Huan Juan, Zheng Ji-Xiang. Recognizing action using multi-center subspace learning-based spatial-temporal information fusion. Acta Automatica Sinica, 2022, 48(11): 2823-2835 doi: 10.16383/j.aas.c190327 [3] 左国玉, 徐兆坤, 卢佳豪, 龚道雄. 基于结构优化的DDAG-SVM上肢康复训练动作识别方法. 自动化学报, 2020, 46(3): 549-561 doi: 10.16383/j.aas.c170724Zuo Guo-Yu, Xu Zhao-Kun, Lu Jia-Hao, Gong Dao-Xiong. A Structure-optimized DDAG-SVM Action Recognition Method for Upper Limb Rehabilitation Training. Acta Automatica Sinica, 2020, 46(3): 549-561 doi: 10.16383/j.aas.c170724 [4] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: 2014. 568−576 [5] Tran D, Bourdev L, Fergus R, Torresani L, Paluri M. Learning spatiotemporal features with 3D convolutional networks. In: Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 4489−4497 [6] Carreira J, Zisserman A. Quo vadis, action recognition? A new model and the kinetics dataset. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 4724−4733 [7] Qiu Z, Yao T, Mei T. Learning spatio-temporal representation with pseudo-3D residual networks. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 5534−5542 [8] Du T, Wang H, Torresani L, Ray J, Paluri M. A closer look at spatio-temporal convolutions for action recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6450−6459 [9] Xie S, Sun C, Huang J, Tu Z, Murphy K. Rethinking spatio-temporal feature learning: Speed-accuracy trade-offs in video classification. In: Proceedings of the European Conference on Computer Vision. Munich, Germany: Springer, 2018. 318−335 [10] Lin J, Gan C, Han S. TSM: Temporal shift module for efficient video understanding. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, South Korea: IEEE, 2019. 7082−7092 [11] Li Y, Ji B, Shi X T, Zhang J G, Kang B, Wang L M. TEA: Temporal excitation and aggregation for action recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 909−918 [12] Liu Z Y, Wang L M, Wu W, Qian C, Lu T. TAM: Temporal adaptive module for video recognition. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 13688−13698 [13] Neimark D, Bar O, Zohar M, Asselmann D. Video transformer network. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 3156−3165 [14] Arnab A, Dehghani M, Heigold G, Sun C, Lucic M, Schmid C. ViViT: A video vision transformer. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 6816−6826 [15] Bertasius G, Wang H, Torresani L. Is space-time attention all you need for video understanding? In: Proceedings of the 38th International Conference on Machine Learning. Vienna, Austria: PMLR, 2021. 813−824 [16] Fan H Q, Xiong B, Mangalam K, Li Y H, Yan Z C, Malik J, et al. Multi-scale vision transformers. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Mon-treal, Canada: IEEE, 2021. 6824−6835 [17] Liu Z, Ning J, Cao Y, Wei Y X, Zhang Z, Lin S, et al. Video swin transformer. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022. 3192−3201 [18] Radford A, Kim J W, Hallacy C, Ramesh A, Goh G, Agarwal S, et al. Learning transferable visual models from natural language supervision. In: Proceedings of the 38th International Conference on Machine Learning. Vienna, Austria: PMLR, 2021. 8748−8763 [19] Jia C, Yang Y F, Xia Y, Chen Y T, Parekh Z, Pham H, et al. Scaling up visual and vision-language representation learning with noisy text supervision. In: Proceedings of the 38th International Conference on Machine Learning. Vienna, Austria: PMLR, 2021. 4904−4916 [20] Yuan L, Chen D D, Chen Y L, Codella N, Dai X Y, Gao J F, et al. Florence: A new foundation model for computer vision. arXiv preprint arXiv: 2111.11432, 2021. [21] Pan J T, Lin Z Y, Zhu X T, Shao J, Li H S. ST-Adapter: Parameter-efficient image-to-video transfer learning. In: Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans, USA: MIT Press, 2022. 1−16 [22] Lin Z Y, Geng S J, Zhang R R, Gao P, Melo G D, Wang X G, et al. Frozen CLIP models are efficient video learners. In: Proceedings of the European Conference on Computer Vision. Tel-Aviv, Israel: Springer, 2022. 388−404 [23] Yang T J N, Zhu Y, Xie Y S, Zhang A, Chen C, Li M. AIM: Adapting image models for efficient video action recognition. In: Proceedings of the International Conference on Learning Representations. Kigali, Republic of Rwanda: 2023. 1−18 [24] Xu H, Ghosh G, Huang P Y, Okhonko D, Aghajanyan A, Metze F, et al. VideoCLIP: Contrastive pre-training for zero-shot video-text understanding. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Punta Cana, Dominican Republic: ACL, 2021. 6787−6800 [25] Ju C, Han T D, Zheng K H, Zhang Y, Xie W D. Prompting visual-language models for efficient video understanding. In: Proceedings of the European Conference on Computer Vision. Tel Aviv, Israel: Springer, 2022. 105−124 [26] Wang M M, Xing J Z, Liu Y. ActionCLIP: A new paradigm for video action recognition. arXiv preprint arXiv: 2109.08472, 2021. [27] Ni B L, Peng H W, Chen M H, Zhang S Y, Meng G F, Fu J L, et al. Expanding language-image pretrained models for general video recognition. In: Proceedings of the European Conference on Computer Vision. Tel Aviv, Israel: Springer, 2022. 1−18 [28] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, et al. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, USA: 2017. 6000−6010 [29] Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X H, Unterthiner T, et al. An image is worth 16 × 16 words: Transformers for image recognition at scale. In: Proceedings of the International Conference on Learning Representations. Vien-na, Austria: 2021. 1−14 [30] Brown T B, Mann B, Ryder N, Subbiah M, Kaplan J, Dhariwal P, et al. Language models are few-shot learners. In: Proceedings of the 34th International Conference on Neural Information Processing Systems. Red Hook, USA: 2020. 1877−1901 [31] Gao T Y, Fisch A, Chen D Q. Making pre-trained language models better few-shot learners. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Bangkok, Thailand: ACL, 2021. 3816−3830 [32] Jiang Z B, Xu F F, Araki J, Neubig G. How can we know what language models know? Transactions of the Association for Computational Linguistics, 2020, 8: 423-438 doi: 10.1162/tacl_a_00324 [33] Schick T, Schütze H. Exploiting cloze questions for few shot text classification and natural language inference. In: Proceedings of the 16th Conference of the European Chapter of the Associat-ion for Computational Linguistics. Virtual Event: ACL, 2021. 255−269 [34] Shin T, Razeghi Y, Logan IV R L, Wallace E, Singh S. AutoPrompt: Eliciting knowledge from language models with automatically generated prompts. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Virtual Event: ACL, 2020. 4222−4235 [35] Lester B, Al-Rfou R, Constant N. The power of scale for parameter-efficient prompt tuning. In: Proceedings of the Conferen-ce on Empirical Methods in Natural Language Processing. Punta Cana, Dominican Republic: ACL, 2021. 3045−3059 [36] Li X L, Liang P. Prefix-tuning: Optimizing continuous prompts for generation. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Virtual Event: ACL, 2021. 4582−4597 [37] Zhou K Y, Yang J K, Loy C C, Liu Z W. Learning to prompt for vision-language models. International Journal of Computer Vision, 2022, 130(9): 2337-2348 doi: 10.1007/s11263-022-01653-1 [38] Zhou K Y, Yang J K, Loy C C, Liu Z W. Conditional prompt learning for vision-language models. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022. 16795−16804 [39] Sennrich R, Haddow B, Birch A. Neural machine translation of rare words with sub-word units. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: ACL, 2016. 1715−1725 [40] Zhang H, Hao Y B, Ngo C W. Token shift transformer for video classification. In: Proceedings of the 29th ACM International Conference on Multimedia. New York, USA: ACM Press, 2021. 917−925 [41] Xie J T, Zeng R R, Wang Q L, Zhou Z Q, Li P H. SoT: Delving deeper into classification head for transformer. arXiv preprint arXiv: 2104.10935, 2021. [42] Kay W, Carreira J, Simonyan K, Zhang B, Hilier C, Vijayan-arasimhan S, et al. The kinetics human action video dataset. arXiv preprint arXiv: 1705.06950, 2017. [43] Soomro K, Zamir A R, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv: 1212.0402, 2012. [44] Kuehne H, Jhuang H, Garrote E, Poggio T, Serre T. HMDB: A large video database for human motion recognition. In: Proceedings of the International Conference on Computer Vision. Barce-lona, Spain: IEEE, 2011. 2556−2563 [45] Wang L M, Xiong Y J, Wang Z, Qiao Y, Lin D H, Tang X O, et al. Temporal segment networks: Towards good practices for deep action recognition. In: Proceedings of the European Conference on Computer Vision. Amsterdam, Netherlands: Springer, 2016. 20−36 [46] Wang X L, Girshick R, Gupta A, He K M. Non-local neural networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7794−7803 [47] Wang H, Tran D, Torresani L, Feiszli M. Video modeling with correlation networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 349−358 [48] Feichtenhofer C, Fan H Q, Malik J, He K M. SlowFast networks for video recognition. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, South Korea: IEEE, 2019. 6201−6210 [49] Feichtenhofer C. X3D: Expanding architectures for efficient video recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 203−213 [50] Liu Z Y, Luo D H, Wang Y B, Wang L M, Tai Y, Wang C J, et al. TEINet: Towards an efficient architecture for video recognition. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11669-11676 doi: 10.1609/aaai.v34i07.6836 [51] Wang L M, Tong Z, Ji B, Wu G S. TDN: Temporal difference networks for efficient action recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021. 1895−1904 [52] Li Y H, Song S J, Li Y Q, Liu J Y. Temporal bilinear networks for video action recognition. In: Proceedings of the 33rd AAAI Conference on Artificial Intelligence and the 31th Innovative Applications of Artificial Intelligence Conference and the 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Hawaii, USA: AAAI, 2019. 8674−8681 [53] Long X, Melo G D, He D L, Li F, Chi Z Z, Wen S L, et al. Purely attention based local feature integration for video classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(4): 2140-2154 [54] Gao Z L, Wang Q L, Zhang B B, Hu Q H, Li P H. Temporal-attentive covariance pooling networks for video recognition. Advances in Neural Information Processing Systems, 2021, 34: 13587-13598 [55] Wang L M, Li W, Li W, Gool L V. Appearance-and-relation networks for video classification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 1430−1439 [56] Kataoka H, Wakamiya T, Hara K, Satoh Y. Would mega-scale datasets further enhance spatio-temporal 3D CNNs? In: Proce-edings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6546−6555 [57] Li R, Zhang Y H, Qiu Z F, Yao T, Liu D, Mei T. Motion-focused contrastive learning of video representations. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021. 2105−2114 [58] Qin J, Liu L, Shao L, Shen F, Ni B B, Chen J X, et al. Zero-shot action recognition with error-correcting output codes. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 1042−1051 [59] Zhu Y, Long Y, Guan Y, Newsam S, Shao L. Towards universal representation for unseen action recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 9436−9445 [60] Gao J Y, Zhang T Z, Xu C S. I know the relationships: Zero-shot action recognition via two-stream graph convolutional networks and knowledge graphs. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 8303-8311 doi: 10.1609/aaai.v33i01.33018303 [61] Brattoli B, Tighe J, Zhdanov F, Perona P, Chalupka K. Rethinking zero-shot video classification: End-to-end training for realistic applications. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 4613−4623 [62] Chen S Z, Huang D. Elaborative rehearsal for zero-shot action recognition. In: Proceedings of the IEEE/CVF International Con-ference on Computer Vision. Montreal, Canada: IEEE, 2021. 13638−13647 期刊类型引用(3)
1. 安俊秀,柳源,杨林旺. 超越同质性假设的双通道属性图聚类. 电信科学. 2025(01): 111-124 . 百度学术
2. 陈妍,吴乐晨,王聪. 基于多层级信息融合网络的微表情识别方法. 自动化学报. 2024(07): 1445-1457 . 本站查看
3. 安国成,江波,王晓龙,戴军. 基于拓展图文对比学习的多模态语义对齐. 计算机工程. 2024(11): 152-162 . 百度学术
其他类型引用(5)
-