2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于文字局部结构相似度量的开放集文字识别方法

刘畅 杨春 殷绪成

王彪新, 伍益明, 郑宁, 徐明. 虚假数据注入攻击下多机器人系统协同寻源. 自动化学报, 2024, 50(2): 403−416 doi: 10.16383/j.aas.c230252
引用本文: 刘畅, 杨春, 殷绪成. 基于文字局部结构相似度量的开放集文字识别方法. 自动化学报, 2024, 50(10): 1977−1987 doi: 10.16383/j.aas.c230545
Wang Biao-Xin, Wu Yi-Ming, Zheng Ning, Xu Ming. Multi-robot system cooperative source seeking under false data injection attack. Acta Automatica Sinica, 2024, 50(2): 403−416 doi: 10.16383/j.aas.c230252
Citation: Liu Chang, Yang Chun, Yin Xu-Cheng. Open-set text recognition via part-based similarity. Acta Automatica Sinica, 2024, 50(10): 1977−1987 doi: 10.16383/j.aas.c230545

基于文字局部结构相似度量的开放集文字识别方法

doi: 10.16383/j.aas.c230545
基金项目: 新一代人工智能国家科技重大专项 (2020AAA0109701), 国家杰出青年科学基金 (62125601), 国家自然科学基金 (62076024)资助
详细信息
    作者简介:

    刘畅:吕勒奥理工大学博士后. 2024年获得北京科技大学博士学位. 主要研究方向为小样本学习, 文本识别和文本检测. E-mail: lasercat@gmx.us

    杨春:北京科技大学副教授. 2018年获得北京科技大学博士学位. 主要研究方向为模式识别, 计算机视觉, 文档分析与识别. 本文通信作者. E-mail: chunyang@ustb.edu.cn

    殷绪成:北京科技大学教授. 2006年获得中国科学院自动化研究所博士学位. 主要研究方向为模式识别, 文字识别, 计算机视觉, 人工智能芯片, 工业智能与工业软件技术及应用. E-mail: xuchengyin@ustb.edu.cn

Open-set Text Recognition via Part-based Similarity

Funds: Supported by National Science and Technology Major Project (2020AAA0109701), National Science Fund for Distinguished Young Scholars (62125601), and National Natural Science Foundation of China (62076024)
More Information
    Author Bio:

    LIU Chang Postdoctoral at Luleå University of Technology. He received his Ph.D. degree from University of Science and Technology Beijing in 2024. His research interest covers few-shot learning, text recognition and text detection

    YANG Chun Associate professor at University of Science and Technology Beijing. He received his Ph.D. degree from University of Science and Technology Beijing in 2018. His research interest covers pattern recognition, computer vision, document analysis and recognition. Corresponding author of this paper

    YIN Xu-Cheng Professor at University of Science and Technology Beijing. He received his Ph.D. degree from Institute of Automation, Chinese Academy of Sciences in 2006. His research interest covers pattern recognition, text recognition, computer vision, AIchips, industrial intelligence and industrial software technology and applications

  • 摘要: 开放集文字识别 (Open-set text recognition, OSTR) 是一项新任务, 旨在解决开放环境下文字识别应用中的语言模型偏差及新字符识别与拒识问题. 最近的 OSTR 方法通过将上下文信息与视觉信息分离来解决语言模型偏差问题. 然而, 这些方法往往忽视了字符视觉细节的重要性. 考虑到上下文信息的偏差, 局部细节信息在区分视觉上接近的字符时变得更加重要. 本文提出一种基于自适应字符部件表示的开放集文字识别框架, 构建基于文字局部结构相似度量的开放集文字识别方法, 通过对不同字符部件进行显式建模来改进对局部细节特征的建模能力. 与基于字根 (Radical) 的方法不同, 所提出的框架采用数据驱动的部件设计, 具有语言无关的特性和跨语言泛化识别的能力. 此外, 还提出一种局部性约束正则项来使模型训练更加稳定. 大量的对比实验表明, 本文方法在开放集、传统闭集文字识别任务上均具有良好的性能.
  • PID控制因算法结构简单、易于实现, 在实际过程控制中得到广泛应用. 但对具有强非线性和不确定性的工业过程, PID控制往往难以取得满意的控制效果. 基于模型的先进控制技术长期以来占据着控制理论与应用领域的主要方向. 然而, 近年来化工、冶金等生产制造业规模日益壮大, 生产工艺、设备变得越来越复杂[1], 使得依据物理和化学等机理建立精确数学模型对生产过程或设备进行监测和控制的传统方法变得越来越难以实现[2]. 当前, 在难以建立系统精确机理模型的情况下, 如何有效利用大量隐含过程和设备变化信息的离线、在线数据和知识, 实现对具有复杂动态特性和强非线性系统的自适应控制[3-4], 已成为控制领域亟待解决的问题.

    自适应控制的基本思想是能够不断感知被控对象变化来调整控制参数, 从而使系统运行于最佳状态[5]. 工业系统的规模化、集成化和复杂化, 促进了自适应控制技术的研究与应用. 根据自适应律的设计方法, 自适应控制主要分为基于稳定性理论的方案和基于参数估计的设计方案, 具有典型代表性的是模型参考自适应控制和自校正控制[6]. 自校正控制源于随机调节问题, 主要采用随机离散模型描述被控对象, 多用于工业过程控制[7]. 由于传统的自适应控制适用于参数缓慢变化的线性系统[8], 当系统具有参数不确定或强时变性, 尤其是面对强非线性系统时, 其效果难以令人满意. 近年来, “控制导向系统辨识”[9]的研究为非线性动态系统的自适应控制方法注入了动力. 以非线性控制系统设计为目标驱动的综合化系统辨识的关键问题之一是选择通用、便于控制器设计并具有高精度的非线性模型[10]. 传统的线性化模型显然无法满足动态变化复杂的非线性系统的控制要求. 现有用以解决非线性控制问题的模型处理方法[11]存在一定的局限性: 1)平衡点线性化模型提出用神经网络[12]弥补工作点附近的主导动态模型, 但由于神经网络本身存在结构和非线性映射复杂的特点, 其高复杂度和大计算量增加了控制器设计的难度; 2) 反馈输入输出线性化模型和反步法反馈线性化模型要求必须获取系统状态空间模型[13]; 3) 分段线性化模型的分段区间数和计算复杂度随系统的非线性强度上升. 然而, 线性化处理的模型仅能保证良好的局部性能, 存在难以描述全局特性的通病. NARMAX模型利用迟滞变量描述非线性动态模型[14]已具有较完善的理论架构, 但其模型复杂度高和求解困难, 很难在工业过程中在线运用. 因此寻找一种低成本的非线性建模方法是提升非线性自适应控制性能的关键.

    为实现对一般性非线性系统的辨识与控制, Chen等[15]提出将一类离散时间非线性动态系统表示成线性模型与高阶非线性项(未建模动态)的组合模型, 采用线性鲁棒自适应控制器、基于神经网络的非线性自适应控制器以及切换机制相结合的控制结构. 文献[16-18]放宽了这一组合控制结构的系统零动态渐近稳定条件, 并严格进行了稳定性及收敛性分析. 文献[16]将磨矿过程的动态特性变化用线性和高阶非线性的组合模型描述, 通过设计消除前一时刻未建模动态补偿信号的PI控制器, 结合一步最优前馈控制和提升技术, 提出了一种双速率区间控制算法. 文献[17]提出一种交替辨识方案对基于投影算法的线性模型和基于神经网络的高阶未建模动态项进行估计. 但由于神经网络结构复杂, 估计性能与初始参数的设置密切相关, 且网络训练容易陷入局部极小, 这种方法实际应用时往往性能不稳定. 文献[18]将自适应神经模糊系统用于设计非线性系统未建模动态补偿器, 采用一一映射[19]将可能无界的未建模动态的定义域转化成一个有界闭集, 保证了自适应神经模糊系统万能逼近特性, 避免了传统神经网络的固有缺陷对控制性能的影响.

    上述方法利用未建模动态项补偿线性控制器为解决非线性动态系统的自适应控制提供了有效方案, 实际应用时, 多采用线性模型和高阶非线性项交替辨识的方法. 控制性能与辨识模型质量密切相关, 但据我们所知, 还没有成果证明该交替辨识方法能够保证模型的整体无限逼近特性. 实际上, 交替辨识结果是由两个逼近器参与运算所得, 根据近似值运算的误差限理论[20]可得$ \zeta \left( {{{\left( {{x_1} + {x_2}} \right)}^*}} \right) \le \zeta \left( {{x_1}^*} \right) + \zeta \left( {{x_2}^*} \right) $, 因此, 此类交替辨识方法存在误差限增长的潜在可能, 不具有数值稳定性. 此外, 现有未建模动态模型建立过程中均没有考虑模型紧致性的问题, 为提高逼近性能往往构建的模型较为复杂, 使得在实际计算资源有限的工业控制器中难以使用.

    针对上述控制方法的不足, 本文提出了一种基于随机配置网络(Stochastic configuration network, SCN)数据驱动模型的自适应控制方法. 其通过设计具有直链与增强结构的SCN, 实现对系统线性部分和高阶非线性项的整体建模, 避免交替辨识中存在的数值不稳定性; 并根据监督增量学习方法构造增强节点, 利用离线数据实现模型结构和模型参数的自学习, 有效提高对非线性系统的建模精度及速度; 进一步结合一步超前最优策略设计基于未建模动态补偿的自适应控制器, 给出了控制方法的收敛性和稳定性分析, 并通过仿真验证所提方法的有效性.

    一类难以用精确数学模型描述的单输入单输出(Single-input single-output, SISO)非线性被控对象可以描述为

    $$ \begin{equation} \begin{split} y\left( {k + 1} \right) = \;&f\left( {y\left( k \right), \cdots,y\left( {k - {n_A} + 1} \right),} \right.\\ &\left. {{\rm{ }}u\left( k \right), \cdots ,u\left( {k - {n_B}} \right)} \right) \end{split}\ \end{equation} $$ (1)

    其中, $ u\left( k \right) $和$ y\left( k \right) $分别是系统输入和输出; k表示kT, T为控制周期; $f\left( \cdot \right) \in {\bf{R }}$表示未知的非线性函数; $ {n_A} $和$ {n_B} $为系统的阶次.

    定义$p\;\left( {p = {n_A} + {n_B} + 1} \right)$维输入向量$ {{{\boldsymbol{ X}}}_v}\left( k \right) $:

    $$ \begin{equation} \begin{split} {{{\boldsymbol{ X}}}_v}\left( k \right) =\;& \left[ {y\left( k \right), \cdots ,y\left( {k - {n_A} + 1} \right),} \right.\\ &{\left. {u\left( k \right), \cdots ,u\left( {k - {n_B}} \right)} \right]^{\rm T}} \end{split}\ \end{equation} $$ (2)

    则式(1)可表示为

    $$ \begin{equation} y\left( {k + 1} \right) = f\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)\ \end{equation} $$ (3)

    进一步可将上述一类SISO非线性被控对象描述为低阶线性模型和高阶非线性(未建模动态)项的组合模型[18], 即

    $$ \begin{equation} A\left( {{z^{ - 1}}} \right)y\left( {k + 1} \right) = B\left( {{z^{ - 1}}} \right)u\left( k \right) + v\left( {\left[ {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right]} \right)\ \end{equation} $$ (4)

    式中, $ A\left( {{z^{ - 1}}} \right) $和$ B\left( {{z^{ - 1}}} \right) $分别为

    $$ A\left( {{z^{ - 1}}} \right) = 1 + {a_1}{z^{ - 1}} + \cdots + {a_{{n_A}}}{z^{ - {n_A}}} $$
    $$ B\left( {{z^{ - 1}}} \right) = {b_0} + {b_1}{z^{ - 1}} + \cdots + {b_{{n_B}}}{z^{ - {n_B}}} $$

    其中, ${a_i}\;( {i = 1, \cdots ,{n_A}} )$ 和 ${b_j}\;( {j =0, 1, \cdots ,{n_B}} )$ 分别为非线性系统在工作点处的一阶Taylor系数. $ v( {[ {{{{\boldsymbol{ X}}}_v}( k )} ]} ) $是未建模动态项, 且$ v( {[ {{{{\boldsymbol{ X}}}_v}( k )} ]} ) $有界, 即$| {v( {[ {{{{\boldsymbol{ X}}}_v}( k )} ]} )} | \le M$, 其中$M $为一个已知的正常数, 表示误差上界.

    由此, 控制目标如下:

    1) 保证闭环系统输入输出信号为有界输入有界输出(Bounded-input bounded-output, BIBO)一致稳定;

    2) 系统输出$ y\left( k \right) $渐近跟踪参考输入$ {y_{sp}}\left( k \right) $的变化, 使其稳态误差小于或等于预先确定的值$\varepsilon\; ( \varepsilon > 0)$, 即$\mathop {\lim }\nolimits_{k \to \infty } \left| {y\left( k \right) - {y_{sp}}\left( k \right)} \right| \le \varepsilon$.

    本文针对由式(4)所示的非线性系统模型, 设计带有直链和增强结构的SCN, 通过监督机制与增量构造技术, 建立非线性系统数据驱动的建模方法. 如图1所示, SCN为一种具有扁平结构的随机神经网络[21], 其特点是: 1)引入监督机制对隐含层随机参数加以约束; 2) 根据数据自适应地调整随机范围. 基于上述两点, SCN有效保证了模型的快速学习特性、无限逼近能力和良好的泛化性能. 本文为进一步提高SCN的表达能力, 借鉴随机向量函数链神经网络结构[22], 构建了由直链和增强两部分组成的SCN, 用于建立非线性系统的数据驱动模型. 其中, 直链部分由输入层直接链接到输出层, 代表模型线性结构; 增强部分为隐含层, 代表模型的非线性结构, 决定模型的表达能力, 对模型精度具有较大的影响. 模型结构的调整在于增强部分, 其需要在监督约束下以增量方式构造, 同时随模型结构的调整不断更新模型参数, 实现模型结构和参数的同时自主调整.

    图 1  带直链的随机配置网络
    Fig. 1  Stochastic configuration network with direct link

    增量构造是一种同时解决网络模型结构和模型参数优化问题的有效方法. 本文从直链部分开始, 向模型中逐渐添加增强节点, 直至达到满意的模型精度为止, 实现了模型的自主学习. 在构造增强节点时根据监督机制将输入权值和偏置在可调区间内加以约束地随机分配, 并在每个增强节点加入网络时, 通过多次分配随机参数建立满足约束条件的候选“节点池”, 从中选出最佳增强节点以加快网络的收敛速度, 具体方法如下.

    考虑到过多的历史数据不仅对非线性系统的辨识精度提升作用不大, 反而会增加模型的复杂度和在线学习的负荷, 本文采用${{{\boldsymbol{ X}}}_v}( k ) = {[ {{x_1(k)}, \cdots ,{x_p(k)}} ]^{\rm T}} = {[ {y( k ), \cdots ,y( {k - {n_A} + 1} ),u( k ), \cdots ,u( {k - {n_B}} )} ]^{\rm T}}$作为输入. 此时, 过程模型可表示为

    $$ \begin{equation} {y_L}= \sum\limits_{j = 1}^p {{\beta _{1,j}}{x_j(k)}} + \sum\limits_{m = 1}^L {{\beta _{2,m}}{h_m}\left( {{w_m},{b_m},{{{\boldsymbol{ X}}}_v(k)}} \right)} \ \end{equation} $$ (5)

    其中, $ {y_L} $表示具有L个增强节点的模型输出; $ {{{\boldsymbol{ \beta}}} _1}= \left\{ {{\beta _{1,j}}} \right\} $$ \left( {j = 1,2, \cdots ,p} \right) $为第j个输入节点到输出节点间的输出权重; $ {{{\boldsymbol{ \beta}}} _2} = \left\{ {{\beta _{2,m}}} \right\} $$( m = 1,2, \cdots , L)$为第$ m $个增强节点到输出节点间的输出权重; $ {w_m} $和$ {b_m} $表示从输入层到第m个增强节点的输入权重和偏置, 即增强节点的随机参数; $ {h_m}\left( \cdot \right) $表示第m个增强节点的激活函数, 本文选用$ \rm sigmoid $函数. 为简单起见, 令增强节点${h_m}\,\left( {{w_m},{b_m},{{{\boldsymbol{ X}}}_v(k)}} \right)= h_m\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) .$

    由式(4)可得:

    $$ \begin{equation} \begin{split} y\left( {k + 1} \right) = \;& - \bar A\left( {{z^{ - 1}}} \right)y\left( k \right) + \\ & B\left( {{z^{ - 1}}} \right)u\left( k \right) + v\left( {\left[ {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right]} \right) \end{split}\ \end{equation} $$ (6)

    其中, $\bar A({z^{ - 1}}) = z\left[ {A({z^{ - 1}}) - 1} \right] = {a_1} + {a_2}{z^{ - 1}} + \cdots + {a_{{n_A}}}{z^{ - {n_A} + 1}}$.

    将式(5)进一步改写为

    $$ \begin{equation} \begin{split} {y_L} = \;&\sum\limits_{j = 1}^{{n_{{A}}}} {{\beta _{1,j}}{x_j}\left( k \right)} + \sum\limits_{j = {n_{{A}}} + 1}^p {{\beta _{1,j}}{x_j}\left( k \right)} \;+ \\ & \sum\limits_{m = 1}^L {{\beta _{2,m}}{h_m}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \end{split}\ \end{equation} $$ (7)

    由此可以看出, 网络的直链部分$\sum\nolimits_{j\, =\, 1}^{{n_{{A}}}} {{\beta _{1,j}}{x_j}\left( k \right)}$和$\sum\nolimits_{j \,=\, {n_{{A}}}\, + \,1}^p \,{{\beta _{1,j}}{x_j}\left( k \right)}$分别是对$ -\bar A\left( {{z^{ - 1}}} \right)y\left( k \right) $和$ B\left( {{z^{ - 1}}} \right)u\left( k \right) $的估计, 代表了模型的线性部分, 即

    $$ \begin{equation} \begin{split} &- {{\hat a}_1} - {{\hat a}_2}{z^{ - 1}} - \cdots - {{\hat a}_{{n_A}}}{z^{ - {n_A} + 1}} = \\ &\qquad{\beta _{1,1}} + {\beta _{1,2}}{z^{ - 1}} + \cdots + {\beta _{1,{n_A}}}{z^{ - {n_A} + 1}} \end{split}\ \end{equation} $$ (8)
    $$ \begin{equation} \begin{split} &{{\hat b}_0} + {{\hat b}_1}{z^{ - 1}} + \cdots + {{\hat b}_{{n_B}}}{z^{ - {n_B}}} = \\ &\qquad{\beta _{1,{n_A} + 1}} + {\beta _{1,{n_A} + 2}}{z^{ - 1}} + \cdots + {\beta _{1,{n_A} + {n_B} + 1}}{z^{ - {n_B}}} \end{split}\ \end{equation} $$ (9)

    模型的增强部分$ \sum\nolimits_{m = 1}^L {{\beta _{2,m}}{h_m}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} $为未建模动态项的估计量$ \hat v\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) $. 当前模型输出与真实值之间的残差表示为$ {e_L} = y - {y_L} $, 如果$ \left\| {{e_L}} \right\| $没有达到预先指定的误差容忍度, 需要在监督机制下生成一个新的增强节点$ {h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) $, 并计算新节点的输出权重$ {\beta _{L + 1}} $, 更新模型输出${y_{L + 1}} = {y_L} + {\beta _{2,L + 1}}{h_{L + 1}}( {{{{\boldsymbol{ X}}}_v}( k )} )$, 以使模型精度得到提高.

    模型构造从如下的直链部分开始

    $$ \begin{equation} y_0= \sum\limits_{j = 1}^p {{\beta _{1,j}}{x_j}(k)} \ \end{equation} $$ (10)

    随后, 向模型中加入如下的约束条件以逐个添加增强节点.

    $$ \begin{equation} {\langle {{e_L},{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \rangle ^2} \ge b_h^2{\delta _{L + 1}}\ \end{equation} $$ (11)

    其中, 假设${\rm{span}}(\Gamma) $是在 $ {L_2} $空间上稠密的, 使得 ${b_h} \in {{\bf R\;}^ + }$ 满足 $ \forall h\left( \cdot \right) \in \Gamma ,0 < \left\| {h\left( \cdot \right)} \right\| < {b_h} $. 此外, 给定非负实数序列$ {r_{L + 1}} = L/\left( {L + 1} \right) $和非负实数序列${\mu _{L + 1}} = \left( {1 - {r_{L + 1}}} \right)/\left( {L + 1} \right)$[23], 则当构造第$ L + 1 $个节点时, 定义$ {\delta _{L + 1}} = \left( {1 - r_{L + 1} - {\mu _{L + 1}}} \right){\left\| {{e_L}} \right\|^2} $, 则有

    $$ \begin{equation} \begin{split} {\xi _{L + 1}} = \;&\frac{{{{\langle {{e_L},{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \rangle }^2}}}{{{{\left\| {{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right\|}^2}}} \;- \\ &\left( {1 - {r_{L + 1}} - {\mu _{L + 1}}} \right)\langle {{e_{L + 1}},{e_{L + 1}}} \rangle \end{split}\ \end{equation} $$ (12)

    正值$ {\xi _{L + 1}} $越大, 则输入权值及偏置的配置效果越好. 首先在某个随机权重范围系下生成$ {T^{\max }} $组候选节点集合$\{ {h_{L + 1}^{\left( 1 \right)}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right), \cdots ,h_{L + 1}^{\left( {{T^{\max }}} \right)}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \}$, 并从中筛选出使得$ {\xi _{L + 1}} $为正值的最大的节点; 最后确定$ {\xi _{L + 1}} $最大时对应的输入权重和偏置为当前增强节点的最佳参数.

    决定模型精度的因素除模型结构外, 还包括模型参数即$ {{{\boldsymbol{ \beta}}} _L} $, 其求解过程采用两个阶段进行:

    1)构建增强节点前, 直链部分的输出函数可描述为式(10).

    通常情况下输入节点个数会远远小于离线数据的数量N, 即$ p \ll N $, 此时$ {{\boldsymbol{ X}}} $不是方阵, 可能找不到$ {{{\boldsymbol{ \beta}}} _1} $使$ {{\boldsymbol{ Y}}} = {{{\boldsymbol{ X}}}_v}{{{\boldsymbol{ \beta}}} _1} $成立, 为此采用最小二乘法进行求解, 即

    $$ \begin{equation} {{{\boldsymbol{ \beta}}} _1} = {\left( {{{\boldsymbol{X}}}_v^\mathrm{T}{{{\boldsymbol{ X}}}_v}} \right)^{ - 1}}{{\boldsymbol{ X}}}_v^\mathrm{T}{{\boldsymbol{ Y}}}\ \end{equation} $$ (13)

    2)当构造第$ {L + 1}$个增强节点时, 模型为

    $$ \begin{equation} {y_{L + 1}} = {y_L} + {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)\ \end{equation} $$ (14)

    通过使$ \left\| {y - {y_{L + 1}}} \right\| = 0 $进行参数寻优, 即

    $$ \begin{equation} y - \left( {{y_L} + {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right) = 0\ \end{equation} $$ (15)

    使等号两端同时平方并对$ {\beta _{2,L+1}} $求导, 可得

    $$ \begin{equation} \begin{split}&\frac{{ \partial {{\left[ {y - \left( {{y_L} + {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right)} \right]}^2}}}{{ \partial {\beta _{2,L + 1}}}} = \\ &\qquad\frac{{ \partial {{\left[ {{e_L} - {\beta _{2,L + 1}}{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right]}^2}}}{{ \partial {\beta _{2,L + 1}}}} = 0 \end{split}\ \end{equation} $$ (16)

    易证得新增增强节点的输出权重$ {\beta _{2,L + 1}} $为

    $$ \begin{equation} {\beta _{2,L + 1}} = \frac{{\langle {{e_L},{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \rangle }}{{{{\left\| {{h_{L + 1}}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right\|}^2}}}\ \end{equation} $$ (17)

    下面给出SCN模型的收敛性证明.

    易知$ 0 < {r_{L + 1}} < 1 $, 由文献[21]可知${\left\| {e_{L + 1}^*} \right\|^2} \le \left( {{r_{L + 1}} + {\mu _{L + 1}}} \right)\left\| {e_L^*} \right\|$.

    考虑到以下不等式

    $$ \begin{equation} 1 - x < {\mathrm{e}^{ - x}},x > 0\ \end{equation} $$ (18)
    $$ \begin{equation} \sum\limits_{i = 1}^k {\frac{1}{{i + 1}} > } \ln \left( {1 + \frac{k}{2}} \right)\ \end{equation} $$ (19)
    $$ \begin{equation} \sum\limits_{i = 1}^k {\frac{1}{{{{\left( {i + 1} \right)}^2}}} < 1 - \frac{1}{{k + 1}}} \ \end{equation} $$ (20)

    可得:

    $$\begin{split} \left\| {e_{L + 1}^*} \right\|^2& \le \left( {{r_{L + 1}} + {\mu _{L + 1}}} \right){\left\| {e_L^*} \right\|^2} \le\\ &\mathop \Pi \limits_{i = 1}^{L} \left( {{r_i} + {\mu _i}} \right){\left\| {e_0^*} \right\|^2}\le \\ &\mathop \Pi \limits_{i = 1}^{L} \left( { \frac{i}{{i + 1}} + \frac{1}{{{{\left( {i + 1} \right)}^2}}}} \right){\left\| {e_0^*} \right\|^2}=\\ & \mathop \Pi \limits_{i = 1}^{L} \left( {1 - \frac{1}{{i + 1}}\left( {1 - \frac{1}{{i + 1}}} \right)} \right){\left\| {e_0^*} \right\|^2}<\\ & \exp \left( { - \sum\limits_{i = 1}^L {\left( { \frac{1}{{i + 1}}\left( {1 - \frac{1}{{i + 1}}} \right)} \right)} } \right){\left\| {e_0^*} \right\|^2}=\\ & \exp \left( { - \sum\limits_{i = 1}^L {\left( { \frac{1}{{i + 1}} - \frac{1}{{{{\left( {i + 1} \right)}^2}}}} \right)} } \right){\left\| {e_0^*} \right\|^2}<\end{split} $$
    $$\begin{split} & \exp \left( { - \ln \left( {1 + \frac{{L}}{2}} \right) + 1 - \frac{1}{{L + 1}}} \right){\left\| {e_0^*} \right\|^2}=\\ & \frac{2}{{L + 2}}\exp \left( { \frac{L}{{L + 1}}} \right){\left\| {e_0^*} \right\|^2} \end{split} $$ (21)

    可得: $\mathop {\lim }\nolimits_{L \to \infty } {\left\| {{e_{L + 1}}} \right\|^2} = 0,$ 即$\mathop {\lim }\nolimits_{L \to \infty } \left\| {{e_{L + 1}}} \right\| = 0$. 因此, 残差序列$ \left\| {{e_{L + 1}}} \right\| $单调递减且收敛于0.

    基于所提出的数据驱动模型设计自适应控制系统, 包括数据驱动线性自适应控制器和虚拟未建模动态补偿器, 如图2所示.

    图 2  基于SCN数据驱动模型的自适应控制方法结构图
    Fig. 2  Structure diagram of adaptive control method with SCN-based data-driven model

    非线性系统的控制输入为

    $$ \begin{equation} \begin{split} u\left( k \right) =\;& u\left( {k - 1} \right) + {k_P}\left[ {e\left( k \right) - e\left( {k - 1} \right)} \right] + \\ &{k_I}e\left( k \right) - K\left( {{z^{ - 1}}} \right)\hat v\left( k \right) \end{split}\ \end{equation} $$ (22)

    其中, 线性自适应控制器采用PI控制律, $ {k_P} $, $ {k_I} $为比例、积分系数. $ K\left( {{z^{ - 1}}} \right) $是$ {z^{ - 1}} $的多项式, $ e\left( k \right) $为跟踪误差, 定义为$ e\left( k \right) = {y_{sp}}\left( k \right) - y\left( k \right) $, $ {y_{sp}}\left( k \right) $为期望输出.

    将$ e\left( k \right) $表达式代入式(22), 由单位迟滞算子得

    $$ \begin{equation} \begin{split} H\left( {{z^{ - 1}}} \right)u\left( k \right) =\;& G\left( {{z^{ - 1}}} \right)\left[ {{y_{sp}}\left( k \right) - y\left( k \right)} \right] - \\ &K\left( {{z^{ - 1}}} \right)\hat v\left( k \right) \end{split}\ \end{equation} $$ (23)

    代入式(4), 有

    $$ \begin{equation} \begin{split} &\left[ {H\left( {{z^{ - 1}}} \right)\hat A\left( {{z^{ - 1}}} \right) + {z^{ - 1}}\hat B\left( {{z^{ - 1}}} \right)G\left( {{z^{ - 1}}} \right)} \right] y\left( {k + 1} \right) = \\ &\qquad\hat B\left( {{z^{ - 1}}} \right)G\left( {{z^{ - 1}}} \right){y_{sp}}(k) + \left[ {H\left( {{z^{ - 1}}} \right) - } \right.\\ &\qquad\left. {\hat B\left( {{z^{ - 1}}} \right)K\left( {{z^{ - 1}}} \right)} \right]\hat v\left( k \right) \\[-10pt]\end{split} \end{equation} $$ (24)

    其中, $ H\left( {{z^{ - 1}}} \right) = 1 - {z^ {- 1}} $, $ G\left( {{z^{ - 1}}} \right) = {g_0} + {g_1}{z^{ - 1}} $, 其中$ {g_0} = {k_P} + {k_I} $, $ {g_1} = - {k_P} $. $ \hat A\left( {{z^{ - 1}}} \right) $和$ \hat B\left( {{z^{ - 1}}} \right) $分别为低阶线性模型参数$ A\left( {{z^{ - 1}}} \right) $和$ B\left( {{z^{ - 1}}} \right) $的估计值, 可由SCN的直链部分获得. $ \hat v\left( k \right) $为虚拟未建模动态项, 可由SCN的增强部分获得.

    为消除非线性动态项的影响, 可令$H\left( {{z^{ - 1}}} \right) - \hat B\left( {{z^{ - 1}}} \right)K\left( {{z^{ - 1}}} \right) = 0$, 即可得到$ K\left( {{z^{ - 1}}} \right) $为

    $$ \begin{equation} K\left( {{z^{ - 1}}} \right) = \frac{{H\left( {{z^{ - 1}}} \right)}}{{\hat B\left( {{z^{ - 1}}} \right)}}\ \end{equation} $$ (25)

    采用一步超前最优控制策略[18]进行控制器设计. 被控对象$ k + 1 $时刻的输出$ \varphi \left( {k + 1} \right) $与理想输出$ {y^*}\left( {k + 1} \right) $的误差的方差最小时能够跟踪参考输入, 得到最小方差的调节器性能指标J

    $$ \begin{equation} \begin{split} J =\;& \left[ {P\left( {{z^{ - 1}}} \right)y\left( {k + 1} \right) - \bar G\left( {{z^{ - 1}}} \right){y_{sp}}\left( k \right) + } \right.\\ &{\left. {{\rm{ }}Q\left( {{z^{ - 1}}} \right)u\left( k \right) + \bar K\left( {{z^{ - 1}}} \right)\hat v\left( k \right)} \right]^2} \end{split}\ \end{equation} $$ (26)

    其中, $ P\left( {{z^{ - 1}}} \right) $、$ Q\left( {{z^{ - 1}}} \right) $均为关于$ {z^{ - 1}} $的加权多项式, $ \bar K\left( {{z^{ - 1}}} \right) $和$ \bar G\left( {{z^{ - 1}}} \right) $为控制器参数多项式.

    引入$ {\rm Diophantine} $方程

    $$ \begin{equation} P\left( {{z^{ - 1}}} \right) = F\left( {{z^{ - 1}}} \right)\hat A\left( {{z^{ - 1}}} \right) + {z^{ - 1}}\bar G\left( {{z^{ - 1}}} \right)\ \end{equation} $$ (27)

    其中, $ \bar F\left( {{z^{ - 1}}} \right) $为关于$ {z^{ - 1}} $的加权多项式.

    令$J=0 $, 得到使式(26)极小的最优控制律

    $$ \begin{equation} \begin{split}& \left[ {Q\left( {{z^{ - 1}}} \right) + F\left( {{z^{ - 1}}} \right)\hat B\left( {{z^{ - 1}}} \right)} \right]u\left( k \right) = \\ &\qquad\bar G \left( {{z^{ - 1}}} \right)\left[ {{y_{sp}}\left( k \right) - y\left( k \right)} \right] + \left[ {\bar K\left( {{z^{ - 1}}} \right) + } \right.\\ &\quad\;\;\left. {F\left( {{z^{ - 1}}} \right)} \right]\hat v\left( k \right) \end{split}\ \end{equation} $$ (28)

    对比式(23)和式(28), 控制器参数多项式有$K( {{z^{ - 1}}} ) = \bar K( {{z^{ - 1}}} ) + F(z^{-1}),$ $G( {{z^{ - 1}}} ) = \bar G( {{z^{ - 1}}} ),$ $\bar G( {{z^{ - 1}}} )$由Diophantine方程式(27)唯一确定.

    为求解上述控制器, 首先利用SCN数据驱动模型辨识非线性系统式(4), 即

    $$ \begin{equation} \begin{split} y\left( {k + 1} \right) = \;&\beta _{_{1,1}}^ky\left( k \right) + \cdots + \beta _{_{1,{n_A}}}^ky\left( {k - {n_A} + 1} \right) + \\ &\beta _{_{1,{n_A} + 1}}^ku\left( k \right) + \cdots + \\ &\beta _{_{1,{n_A} + {n_B} + 1}}^ku\left( {k - {n_B}} \right) + \\ &\beta _{2,1}^kh\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) + \cdots + \beta _{2,L}^kh\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) \end{split}\ \end{equation} $$ (29)

    提取线性模型参数的估计值$ \hat A\left( {{z^{ - 1}}} \right) $和$ \hat B\left( {{z^{ - 1}}} \right) $以及虚拟未建模动态项$ \hat v\left( {{{{{\boldsymbol{ X}}}_v}\left( k \right)} } \right) $, 则$k+1 $时刻系统表示为

    $$ \begin{equation} {\hat A^k}\left( {{z^{ - 1}}} \right)\hat y\left( {k + 1} \right) = {\hat B^k}\left( {{z^{ - 1}}} \right)u\left( k \right) + \hat v\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)\ \end{equation} $$ (30)

    其中, 线性模型参数多项式为

    $$ \begin{equation} \left\{ \begin{aligned} &{{\hat A}^k}\left( {{z^{ - 1}}} \right) = 1 + \beta _{_{1,1}}^k{z^{ - 1}} + \cdots + \beta _{_{1,{n_A}}}^k{z^{ - {n_A}}}\\ &{{\hat B}^k}\left( {{z^{ - 1}}} \right) = \beta _{_{1,{n_A} + 1}}^k + \cdots + \beta _{_{1,{n_A} + {n_B} + 1}}^k{z^{ - {n_B}}} \end{aligned} \right.\ \end{equation} $$ (31)

    未建模动态项估计值为

    $$ \begin{equation} \begin{split} \hat v\left( {{{{{\boldsymbol{ X}}}_v}\left( k \right)} } \right) = \;&\beta _{2,1}^k{h_1}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right){\rm{ + }} \cdots {\rm{ + }}\\ &\beta _{2,L}^k{h_L}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) \end{split}\ \end{equation} $$ (32)

    式中, $\beta _{2,1}^k$表示k时刻模型参数的更新值. 定义拓展输入$ {{\boldsymbol{ \Phi}}}=\left[ {{{{\boldsymbol{ X}}}_v};{{{\boldsymbol{ H}}}_v}} \right] $, 包括输入$ {{{\boldsymbol{ X}}}_v} $和增强节点输出${{\boldsymbol{H}}_v}$; 输出权值$ {{\boldsymbol{ \theta}}} = \left[ {{{{\boldsymbol{ \beta}}} _{_1}^k};{{{\boldsymbol{ \beta}}} _{_2}^k}} \right] $, ${{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}$表示低阶线性模型, ${{\boldsymbol{ H}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _2}$表示虚拟未建模动态项$ \hat v\left( k \right) $.

    $$ \begin{equation} \left\{ \begin{aligned} {{\boldsymbol{ \Phi}}} \left( k \right) =\;& \left[ {y\left( {k - 1} \right), \cdots ,y\left( {k - {n_A}} \right),} \right.\\ &u\left( {k - 1} \right), \cdots ,u\left( {k - {n_B} - 1} \right),\\ &{h_1}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right), \cdots ,{\left. {{h_L}\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right)} \right]^\mathrm{T}}{\rm{ }}\\ {{\boldsymbol{ \theta}}} \left( k \right) =\;& \left[ {{{\boldsymbol{ \beta}}} _{_1}^k;{{\boldsymbol{ \beta}}} _{_2}^k} \right] = \left[ {\beta _{_{1,1}}^k, \cdots ,\beta _{_{1,{n_A} + {n_B} + 1}}^k,} \right.\\ &{\left. {\beta _{_{2,1}}^k, \cdots ,\beta _{_{2,L}}^k} \right]^\mathrm{T}} \end{aligned} \right.\ \end{equation} $$ (33)

    此时, 利用$k-1 $时刻的参数可得输出估计为

    $$ \begin{equation} \hat y\left( k \right) = {{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ \theta}}} \left( k-1 \right)\ \end{equation} $$ (34)

    本文采用一种递推方式在线更新$ {\boldsymbol{\theta}} $, 并引入遗忘因子以平衡新、旧数据的作用, 具体方法为

    $$ \begin{equation} \left\{ \begin{aligned} &{{\boldsymbol{ \theta}}} \left( k \right) = {{\boldsymbol{ \theta}}} \left( {k - 1} \right) + {{{\boldsymbol{ K}}}^*}\left( k \right)\;\times\\&{\kern 32pt}\left[ {y\left( k \right) - } \right. \left. {{{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ \theta}}}\left( {k - 1} \right)} \right]\\ &{{{\boldsymbol{ K}}}^*}\left( k \right) = {{\boldsymbol{ P}}}\left( {k - 1} \right){{\boldsymbol{ \Phi}}} \left( k \right)\;\times\\&{\kern 44pt}\left[ {\lambda + } \right. {\left. {{{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ P}}}\left( {k - 1} \right){{\boldsymbol{ \Phi}}} \left( k \right)} \right]^{ - 1}}\\ &{{\boldsymbol{ P}}}\left( k \right) = \frac{1}{\lambda }{\left[ {{{\boldsymbol{ I}}} - {{{\boldsymbol{ K}}}^*}\left( k \right){{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right)} \right]^{ - 1}}{{\boldsymbol{ P}}}\left( {k - 1} \right) \end{aligned} \right.\ \end{equation} $$ (35)

    其中, $ {{{\boldsymbol{ K}}}^*}\left( {k} \right) $为卡尔曼增益, $ {{\boldsymbol{ P}}}\left( k \right) $为协方差矩阵, 参数初值$ {{\boldsymbol{ \theta}}} \left( 0 \right) $和协方差矩阵初值$ {{\boldsymbol{ P}}}\left( 0 \right) $通过离线数据求解. $ \lambda $为遗忘因子, 其最佳取值范围一般为0.95 ~ 0.99, 在本文中通过实验确定.

    根据式(24)和式(25), 可得控制律为

    $$ \begin{equation} \begin{split} H\left( {{z^{ - 1}}} \right)u\left( k \right) =\;& {G^k}\left( {{z^{ - 1}}} \right)e\left( k \right) - \\ & \frac{{H\left( {{z^{ - 1}}} \right)}}{{{{\hat B}^k}\left( {{z^{ - 1}}} \right)}}\hat v\left( {{{{\boldsymbol{ X}}}_v}\left( k \right)} \right) \end{split}\ \end{equation} $$ (36)

    具体实施步骤如下:

    步骤 1. 收集离线数据, 构建模型的原始输入 ${{{\boldsymbol{ X}}}_v}\left( k \right) \;=\; \left[ {y\left( k \right),\; \cdots ,\;y\left( {k - {n_A} \;+ \;1} \right),\;u\left( k \right),\; \cdots } \right. ,$ ${\left. {u\left( {k - {n_B}} \right)} \right]^\mathrm{T}}$, 初始化SCN模型, 计算递推初值$ {{\boldsymbol{ \theta}}} \left( 0 \right) $和$ {{\boldsymbol{ P}}}\left( 0 \right) $, 由式(13) 计算直链部分输出权重.

    步骤 2. 设置残差容忍度构造增强节点, 建立候选“节点池”并计算$ \delta $选取最佳节点, 由式(17)求解其输出权重, 当残差不满足要求时, 继续构造增强节点; 当残差满足要求时, 执行步骤3.

    步骤 3. 根据网络输出权重计算线性模型参数估计值$ {\hat A} $、$ {\hat B} $和虚拟未建模动态项估计值$ {\hat v} $, 通过式(28)计算初始控制输入.

    步骤 4. 在线采集在线运行数据构造k时刻模型输入向量$ {{\boldsymbol{ \Phi}}} \left( k \right) $, 选取合适的遗忘因子$ \lambda $, 根据式(35)在线递推更新$ {{\boldsymbol{ \theta}}} \left( k \right) $.

    步骤 5. 若系统仍在运行, 则返回步骤3, 计算下一步控制输入.

    步骤 6. 若系统停止运行, 则终止采集在线运行数据, 停止计算下一步控制输入.

    以下是数据驱动非线性自适应控制系统的稳定性和收敛性分析.

    引理 1. 当控制系统满足如下条件时具有稳定性和收敛性.

    1)参数多项式$ A\left( {{z^{ - 1}}} \right) $, $ B\left( {{z^{ - 1}}} \right) $ 在紧集 $ \Omega $中变化;

    2)高阶非线性项$ v\left( {{{{\boldsymbol{ X}}}_v \left( k \right)} } \right) $全局有界, 即$ \left\| {v\left[ \cdot \right]} \right\| \le M $.

    证明. 采用类似于文献[18]的方法可得条件1)和条件2)成立, 不再赘述.

    引理 2. SCN模型具有如下性质:

    1) $\mathop {\lim }\nolimits_{L \to {L_0}} {\left\| {{e_L}} \right\|^2} < {\varepsilon _L}$, $ {L_0} $为增强节点总数, $ {\varepsilon _L} $为残差容忍度.

    2)$\left| {\hat v\left( k \right)} \right| \le \left\| {y - {{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}} \right\| + \left\| {{\varepsilon _L}} \right\|$

    证明. 性质1)和性质2)由式(21)易证得.

    引理 3. 将SCN模型的两个组成部分式(32)和式(33)以及自适应组合控制律(36)应用到系统(31)时, 令$ e'\left( k \right) = y\left( k \right) - {{{\boldsymbol{ \Phi}}} ^\mathrm{T}}\left( k \right){{\boldsymbol{ \theta}}} \left( k \right) $, 系统的输入输出动态特性方程如下(式中省去了多项式$z^{-1}$):

    $$ \begin{equation} \begin{split} &\left[ {\begin{array}{*{20}{c}} \begin{array}{c} H{{\hat A}^k} + {{\hat B}^k}{G^k}- {\Pi _1} \end{array}& {{\Pi _2}}\\ {{\Pi _3}}& \begin{array}{c} H{{\hat A}^k} + {{\hat B}^k}{G^k}+ {\Pi _4} \end{array} \end{array}} \right] \left[ {\begin{array}{*{20}{c}} {y\left( k \right)}\\ {u\left( k \right)} \end{array}} \right] = \\ &\qquad\left[ {\begin{array}{*{20}{c}} {{{\hat B}^k}{G^k}}\\ {{{\hat A}^k}{G^k}} \end{array}} \right]{y_{sp}}\left( k \right) + \left[ {\begin{array}{*{20}{c}} H\\ { - {G^k}} \end{array}} \right]e'\left( k \right)\;- \\ &\qquad\left[ {\begin{array}{*{20}{c}} {H{{\hat B}^k}{K^k} - H}\\ {H{{\hat A}^k}{K^k} + {G^k}} \end{array}} \right]\hat v\left( k \right) \end{split}\ \end{equation} $$ (37)

    其中, $\left\{ \begin{align} &{\Pi _1} = H{{\hat A}^k} - H{{\hat A}^{k - 1}}\\ &{\Pi _2} = H{{\hat B}^k} - H{{\hat B}^{k - 1}}\\&{\Pi _3} = {{\hat A}^k}{G^k} - {{\hat A}^{k - 1}}{G^k}\\&{\Pi _4} = {{\hat B}^k}{G^k} - {{\hat B}^{k - 1}}{G^k} \end{align} \right.$

    证明. 由文献[24]易得动态特性方程成立.

    定理 1. 通过实验的方法选取合适的残差容忍度, 使得未建模估计满足 $\left| {\hat v\left( k \right)} \right| \le M \le \left\| {{{\boldsymbol{ Y}}} - {{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}} \right\| + \left\| {{\varepsilon _L}} \right\|$. 在控制律(36)的作用下, 被控对象的输入输出一致有界, 即

    $$ \begin{equation} \left| {u\left( k \right)} \right| < \infty ,\left| {y\left( k \right)} \right| < \infty \ \end{equation} $$ (38)

    设定值$ {y_{sp}}(k) $与被控对象的输出值$ y(k) $之间的稳态误差$ e(k) $可满足

    $$ \begin{equation} \mathop {\lim }\limits_{k \to \infty } \left| {{y_{sp}}\left( k \right) - y\left( k \right)} \right| < \varepsilon \ \end{equation} $$ (39)

    其中, $ \varepsilon $表示稳态误差预设的上界值.

    证明. $ {e_0} $是实际值与线性模型部分的残差. 由式(21)可知$ \left\| {{e_L}} \right\|\left( {L = 0,1,2, \cdots ,{L_0}} \right) $是递减序列. 易证 $ \left| {\hat v\left( k \right)} \right| \le M,M = \left\| {{{\boldsymbol{ Y}}} - {{\boldsymbol{ X}}}_v^\mathrm{T}{{{\boldsymbol{ \beta}}} _1}} \right\| + \left\| {{\varepsilon _L}} \right\| $.

    根据文献[24]中的方法, 由式(37)、$ {y_{sp}}(k) $以及$ \hat y\left( k \right) $的有界性可知, 存在正常数$ {c_1} $, $ {c_2} $满足

    $$ \begin{equation} \left| {u\left( k \right)} \right| \le {c_1} + {c_2}\mathop {\max }\limits_{0 \le k' < k} \left| {\hat y\left( {k'} \right)} \right| \le {c_1} + {c_2}{\varepsilon _L} < \infty \ \end{equation} $$ (40)

    由式(30)和式(37)以及$ {y_{sp}}(k) $和$ \hat y\left( k \right) $有界性可知, 存在正常数$ {c_3} $, $ {c_4} $满足

    $$ \begin{equation} \left| {y\left( k \right)} \right| \le {c_3} + {c_4}\mathop {\max }\limits_{0 \le k' < k} \left| {\hat y\left( {k'} \right)} \right| \le {c_3} + {c_4}{\varepsilon _L} < \infty \ \end{equation} $$ (41)

    综上可知, 系统的输入$ u\left( k \right) $和输出$ y\left( k \right) $有界. 由式(37)可得, 当$ k \to \infty $时, 有

    $$ \begin{equation} \begin{split} \mathop {\lim }\limits_{k \to \infty } \left| {e\left( k \right)} \right| =\;& \mathop {\lim }\limits_{k \to \infty } \left| {{y_{sp}}\left( k \right) - y\left( k \right)} \right|=\\ &\mathop {\lim }\limits_{k \to \infty } \left| { \frac{1}{{{{\hat B}^k}{G^k}}}} \right|\left| {\left( {H{{\hat A}^k} \;+ } \right.} \right.\\ &\left. {{\rm{ }}\left. {{{\hat B}^k}{G^k}} \right)y\left( k \right) - {{\hat B}^k}{G^k}{y_{sp}}\left( k \right)} \right| \end{split}\ \end{equation} $$ (42)

    变换得

    $$ \begin{equation} \begin{split} \mathop {\lim }\limits_{k \to \infty } \left| {e\left( k \right)} \right| =& \mathop {\lim }\limits_{k \to \infty } \left| { \frac{1}{{{{\hat B}^k}{G^k}}}} \right|\Big| {He'\left( k \right) + } \\ &{\Pi _1}y\left( k \right) - {\Pi _2}u\left( k \right) - {\rm{ }}\\ & {\left[ {{{\hat B}^k}{K^k} - H} \right]} \Big|\hat v\left( k \right) \end{split}\ \end{equation} $$ (43)

    由式(25)得$ {\hat B^k}{K^k} - H = 0 $, 同时根据定义易知${\lim _{k \to \infty }}\left| {{\Pi _i}} \right| = 0,i = 1,2$, $ {\lim _{k \to \infty }}\left| {He'\left( k \right)} \right| = 0 $. 则由式(37)以及$ {y_{sp}}(k) $, $ y(k) $, $ u\left( k \right) $和$ \hat v\left( k \right) $的有界性可知, 存在任意小的正数$ {\varepsilon} $, 满足

    $$ \mathop {\lim }\limits_{k \to \infty } \left| {{y_{sp}}\left( k \right) - y\left( k \right)} \right| < \varepsilon $$

    为验证所提出算法的有效性, 采用本文方法与传统方法[17-18]进行数值仿真对比实验. 控制目标是使得系统输出$ y\left( t \right) $跟踪参考轨迹$w\left( t \right) = 14.5\;( 3 < t \le 150)$和$w\left( t \right) =14\;( 150 < t \le 300)$. 选用以下离散时间的非线性系统作为被控对象:

    $$ \begin{equation} \begin{split} y\left( {t + 1} \right) =\;& 1.66y\left( t \right) - 0.66y\left( {t - 1} \right)+ \\ &u\left( t \right) + 1.26u\left( {t - 1} \right) + \\ &0.02\sin \left( {0.5y\left( t \right)u\left( t \right) + } \right.\\&\left. {2y\left( {t - 1} \right)u\left( {t - 1} \right)} \right) \end{split}\ \end{equation} $$ (44)

    由式(4)可得, $ A\left( {{z^{ - 1}}} \right) = 1 - 1.66{z^{ - 1}} + 0.66{z^{ - 2}} $, $ B\left( {{z^{ - 1}}} \right) = 1 + 1.26{z^{ - 1}} $. 易知式(44)中系统的非线性项$ 0.02\mathrm{sin}\left( {0.5y\left( t \right)u\left( t \right) + 2y\left( {t - 1} \right)u\left( {t - 1} \right)} \right) $全局有界. 设计线性自适应控制器时, 离线选择$ P( {{z^{ - 1}}} ) = 0.8 $, $ Q\left( {{z^{ - 1}}} \right) = 0.15 $.

    式(44)的被控对象模型为二阶的SISO系统, 故输入节点数为4, 输出节点为1. 在[10, 20]的区间内随机产生2 100个输入值$ u $, 从中顺序构建2 000组SCN模型的输入、输出向量. 选取本文方法的候选节点池为$ {T^{\max}} = 10 $, 根据离线数据构建增强节点数为9. $ {T^{\max}} $选取时既要避免建模耗时太长, 亦要避免候选节点数不足导致建模过程不稳定.

    在线学习时引进遗忘因子可以平衡新、旧数据的作用. 选择不同的$ \lambda $值, 可以调整对历史数据的遗忘效果. SCN结构确定后通过实验试凑的方法选取合适的遗忘因子, 设置遗忘因子$ \lambda $时在0.96 ~ 0.99的范围内取值. 如图3所示, 当$ \lambda $取值为0.98时收敛速度最快.

    图 3  不同遗忘因子下的控制系统输出
    Fig. 3  Output of control system under different forgetting factors

    SCN与传统RVFLNN (Random vector functional-link neural network)[21]建模性能的对比如表1所示, 在本文的数值仿真中, SCN模型在增强节点的个数、离线建模时间以及模型在线估计误差上的表现均优于传统RVFLNN模型. 在设定模型残差后, 由于引入监督机制选取增强节点的最优化参数, 使得其能够利用更少的节点逼近非线性模型. 离线建模时间除了受到硬件的约束外, 还受到模型结构以及网络计算负担的影响. 虽然在每次计算循环中, 候选池节点的构建及最优化参数的选取增加了计算负担, 但是获取了更轻量的模型结构以减少建模的时间. 此外, 由于SCN模型的增强节点在监督机制下选取, 避免了冗余节点和无效节点的产生, 因此在线辨识非线性系统的过程中获取了更小的误差.

    表 1  模型性能对比
    Table 1  Performance comparison of models
    模型性能指标 增强节点个数 离线建模
    时间 (s)
    模型在线平均
    绝对误差
    传统RVFLNN模型 17 0.257 19 0.004 6
    SCN模型 9 0.245 82 0.001 3
    下载: 导出CSV 
    | 显示表格

    为验证本文方法的性能优势, 下面将对经典的线性模型、BP的交替辨识模型[17]、ANFIS的交替辨识模型[18]与本文SCN数据驱动模型的自适应控制方法进行对比, 控制系统的性能如图4 ~ 7所示. 表2对比了基于4种不同模型的自适应控制方法中模型估计性能的量化指标: 模型估计值的平均绝对误差(Mean absolute error, MAE).

    图 4  控制系统输出对比
    Fig. 4  Comparison of the output of the control system
    图 5  控制系统输入对比
    Fig. 5  Comparison of the input of the control system
    图 6  控制系统输出误差对比
    Fig. 6  Comparison of the output errors of the control systems
    图 7  非线性系统模型估计误差对比
    Fig. 7  Comparison of model estimation errors of nonlinear systems
    表 2  控制系统模型估计性能对比
    Table 2  Comparison of performance of model estimates for control systems
    基于不同模型的自适应控制系统 ${\rm MAE}$
    基于线性模型的自适应控制 0.009 2
    基于BP交替辨识模型的自适应控制 0.007 0
    基于ANFIS交替辨识模型的自适应控制 0.005 1
    基于SCN数据模型的自适应控制 0.001 3
    下载: 导出CSV 
    | 显示表格

    图4图6可见, 非线性控制输入引入了虚拟未建模动态项补偿, 稳态误差小于基于线性模型的自适应控制, 其中本文方法的控制输出收敛速度和稳态性能最好. 由图5可见, 基于交替辨识模型的控制输入幅值波动较大. 本文研究的是基于模型估计的自适应控制方法, 控制性能依赖于模型估计的性能. 经典的线性化模型丢失了非线性系统中的动态特性, 使得模型估计误差偏大. 而交替辨识模型利用非线性系统输出与线性化后的线性模型输出之间的误差(未建模动态项)设计非线性补偿控制律, 辨识过程交替进行, 其数值不稳定性会导致模型估计的误差限上升, 从而影响了控制性能. 与上述方法不同的是, 本文SCN数据驱动模型利用其直链与增强结构直接逼近非线性系统, 避免了交替辨识数值不稳定性和误差限上升的风险, 从而提高了控制性能.

    将所提方法应用在典型一段重介质选煤过程, 建立以重介质液密度为输入, 灰分含量为输出的控制回路, 重介质选煤过程的机理模型取于文献[25].

    实例描述如下: 重介质选煤过程的产品规格初始值取灰分含量为14%的低灰煤. 重介质悬浮液的初始密度$ u\left( 0 \right) = 1\,530\,\mathrm{kg}/{\mathrm{m}^3} $, 给煤量为$ 8\,\mathrm{kg}/\mathrm{s} $, 同时设定[−1, 1]的随机动态变化量. 令$ \lambda $为0.97, $ P( {{z^{ - 1}}} ) = 0.8 $, $ Q( {{z^{ - 1}}} ) = 0.2 $. 灰分含量初始设定值为14%, 20 min时将设定值调整为12%, 40 min时将设定值调整为13%.

    采用本文提出的自适应控制方法跟踪灰分含量设定值, 利用SCN数据驱动模型和量测所得输入输出过程信息, 在设定值突变的工况下提高感知被控对象系统时变特性的性能, 调整控制器参数以修正控制输入, 最终保持系统的性能指标接近期望的性能指标, 控制效果如图8图9所示.

    图 8  基于SCN数据模型的灰分含量跟踪控制输出
    Fig. 8  Output of ash content tracking control based on SCN data-driven model
    图 9  基于SCN数据模型的重介质选煤灰分含量估计误差曲线
    Fig. 9  Estimation error curve of ash content in dense medium separation process based on SCN data model

    图8可知, 在基于SCN数据驱动模型的直链部分通过在线辨识灰分含量控制系统参数设计的自适应控制器基础上, 又通过增强部分估计高阶未建模动态项对灰分含量控制系统中的非线性部分进行补偿, 尽管给煤量中设置了随机扰动, 但控制系统输出的误差能够控制在一定范围内. 且在20 min和40 min改变灰分含量的期望值时, 灰分含量控制系统的跟踪效果好, 稳态误差小.

    图9为采用SCN数据驱动模型估计的重介质选煤灰分含量$ \hat y $与实际y 之间的估计误差$ \Delta y $, 可以看到, 当灰分含量的期望值改变时, SCN模型对灰分含量输出的估计出现较大的偏差, 但在几个采样周期后, 通过网络的学习使得估计误差缩小到 ±0.05%以内, SCN数据驱动模型建立的灰分含量控制系统估计模型学习速度快、准确性高, 能够满足虚拟未建模动态补偿自适应控制器的设计要求.

    通过分析与实验结果得出以下结论: 针对难以建立精确模型的非线性离散动态系统, 1)本文采用增量学习方法与监督机制, 对模型结构与模型参数进行同步更新优化, 保证了SCN数据驱动模型的无限逼近能力; 2) 设计了具有直链与增强结构的SCN, 提出了在一个控制周期内对动态非线性系统的低阶线性模型和高阶非线性未建模动态同时辨识的建模方法, 提高了对非线性受控系统的辨识精度; 3) 结合一步超前最优控制策略、控制系统的输入、输出数据和数据驱动建模的结果, 实现了线性控制器和未建模动态补偿器参数的自学习过程. 综上, 本文对一类未知动态非线性系统在模型辨识和自适应控制方面具有实用性和一定的优越性. 未来将基于本文方法从如下方面开展相关工作: 1) 引入多模型自适应控制的思想, 利用本文方法对被控对象构建合适的模型集, 覆盖被控对象的不确定性, 以应对模型参数发生突变的情况; 2)将本文方法的应用领域扩展至多输入−多输出的实际应用背景.


  • 11 代码, 模型, 文档见: https://github.com/lancercat/OAPR
  • 22 注意, 字符在特征空间的区域可能有交集.
  • 图  1  基于整字符识别方法的形近字混淆

    Fig.  1  The confusion among close characters of the whole-character-based method

    图  2  开放集文字识别任务示意图[24] , 经许可转载自文献[24], ©《中国图象图形学报》编辑出版委员会, 2023

    Fig.  2  An illustration of the open-set text task[24], reproduced with permission from reference [24], ©Editorial and Publishing Board of Journal of Image and Graphics, 2023

    图  3  本文提出的基于自适应字符部件表示的开放集文字识别框架

    Fig.  3  The proposed open-set text recognition framework with adaptive part representation

    图  4  行级部件注意力模块

    Fig.  4  The proposed part attention line module

    图  5  字符级部件注意力模块

    Fig.  5  The proposed part attention character module

    图  6  部件相似度分类模块

    Fig.  6  The proposed part similarity recognition module

    图  7  消融实验详细结果图

    Fig.  7  Details of each individual run inthe ablative studies

    图  8  基线方法(上侧) 与我们的模型 (下侧) 的识别结果对比

    Fig.  8  More comparison between base method (top) and the proposed framework (bottom)

    图  9  日文测试数据集上的识别结果(GZSL 划分)

    Fig.  9  Sample results from the Japanese testing data set (With GZSL split)

    图  10  韩文数据集识别结果

    Fig.  10  Sample recognition results from the Korean data set

    图  11  封闭集上的识别结果展示

    Fig.  11  Sample results from the close-set benchmark

    表  1  消融实验

    Table  1  Ablative studies

    自适应字符
    部件表示
    局部性
    约束
    Avg LA $ \uparrow $Gap LA $ \downarrow $
    Ours$\checkmark $$\checkmark $39.614.91
    仅自适应字符部件表示$\checkmark $38.916.54
    字符整体特征34.042.27
    下载: 导出CSV

    表  2  开放集文字识别性能

    Table  2  Performance on open-set text recognition benchmarks

    任务 $ {\boldsymbol{C}}_{test}^k $ $ {\boldsymbol{C}}_{test}^u $ 方法 来源 LA (%) Recall (%) Precision (%) F-measure (%)
    Unique Kanji OSOCR-Large[8] PR' 2023 30.83
    GZSL Shared Kanji $ \emptyset $ OpenCCD[9] CVPR' 2022 36.57
    Kana, Latin OpenCCD-Large[9] CVPR' 2022 41.31
    Ours 39.61
    Ours-Large 40.91
    OSR Shared Kanji Unique Kanji OSOCR-Large[8] PR' 2023 74.35 11.27 98.28 20.23
    Latin Kana OpenCCD-Large*[9] CVPR' 2022 84.76 30.63 98.90 46.78
    Ours 73.56 64.30 96.21 76.66
    Ours-Large 77.15 60.59 96.80 74.52
    GOSR Shared Kanji Kana OSOCR-Large[8] PR' 2023 56.03 3.03 63.52 5.78
    Unique Kanji OpenCCD-Large*[9] CVPR' 2022 68.29 3.47 86.11 6.68
    Latin Ours 65.07 54.12 82.52 64.65
    Ours-Large 67.40 47.64 82.99 60.53
    OSTR Shared Kanji Kana OSOCR-Large[8] PR' 2023 58.57 24.46 93.78 38.80
    Unique Kanji Latin OpenCCD-Large*[9] CVPR' 2022 69.82 35.95 97.03 52.47
    Ours 68.20 81.04 89.86 85.07
    Ours-Large 69.87 75.97 91.18 82.88
    注: * 表示原论文中未报告的性能, 数据来自原作者代码仓库和释出的模型.
    下载: 导出CSV

    表  3  封闭集文字识别基准测试性能及单批次推理速度

    Table  3  Performance on close-set text recognition benchmarks and single batch inference speed

    方法 来源 IIIT5K CUTE SVT IC03 IC13 GPU TFlops FPS
    CA-FCN*[22] AAAI'19 92.0 79.9 82.1 91.4 Titan XP 12.0 45.0
    Comb.Best[23] ICCV'19 87.9 74.0 87.5 94.4 92.3 Tesla P40 12.0 36.0
    PERN[47] CVPR'21 92.1 81.3 92.0 94.9 94.7 Tesla V100 14.0 44.0
    JVSR[48] ICCV'21 95.2 89.7 92.2 95.5 RTX 2080Ti 13.6 38.0
    ABINet[49] T-PAMI'23 96.2 89.2 93.5 97.4 95.7 V100 14.0 29.4
    CRNN[21, 23] T-PAMI'17 82.9 65.5 81.6 92.6 89.2 Tesla P40 12.0 227.0
    Rosetta[23, 50] KDD'18 84.3 69.2 84.7 92.9 89.0 Tesla P40 12.0 212.0
    ViTSTR[51] ICDAR'21 88.4 81.3 87.7 94.3 92.4 RTX 2080Ti 13.6 102.0
    GLaLT-Big-Aug[52] TNNLS'23 90.4 77.1 90.0 95.2 95.3 62.1
    Ours-Large 89.06 77.77 80.68 89.61 87.98 Tesla P40 12.0 85.7
    下载: 导出CSV
  • [1] 李文英, 曹斌, 曹春水, 黄永祯. 一种基于深度学习的青铜器铭文识别方法. 自动化学报, 2018, 44(11): 2023−2030

    Li Wen-Ying, Cao Bin, Cao Chun-Shui, Huang Yong-Zhen. A deep learning based method for bronze inscription recognition. Acta Automatica Sinica, 2018, 44(11): 2023−2030
    [2] Zheng T L, Chen Z N, Huang B C, Zhang W, Jiang Y G. MRN: Multiplexed routing network for incremental multilingual text recognition. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE, 2023. 18598−18607
    [3] 麻斯亮, 许勇. 叠层模型驱动的书法文字识别方法研究. 自动化学报, 2024, 50(5): 947−957

    Ma Si-Liang, Xu Yong. Calligraphy character recognition method driven by stacked model. Acta Automatica Sinica, 2024, 50(5): 947−957
    [4] 张颐康, 张恒, 刘永革, 刘成林. 基于跨模态深度度量学习的甲骨文字识别. 自动化学报, 2021, 47(4): 791−800

    Zhang Yi-Kang, Zhang Heng, Liu Yong-Ge, Liu Cheng-Lin. Oracle character recognition based on cross-modal deep metric learning. Acta Automatica Sinica, 2021, 47(4): 791−800
    [5] Zhang C H, Gupta A, Zisserman A. Adaptive text recognition through visual matching. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 51−67
    [6] Souibgui M A, Fornés A, Kessentini Y, Megyesi B. Few shots are all you need: A progressive learning approach for low resource handwritten text recognition. Pattern Recognition Letters, 2022, 160: 43−49 doi: 10.1016/j.patrec.2022.06.003
    [7] Kordon F, Weichselbaumer N, Herz R, Mossman S, Potten E, Seuret M, et al. Classification of incunable glyphs and out-of-distribution detection with joint energy-based models. International Journal on Document Analysis and Recognition, 2023, 26(3): 223−240 doi: 10.1007/s10032-023-00442-x
    [8] Liu C, Yang C, Qin H B, Zhu X B, Liu C L, Yin X C. Towards open-set text recognition via label-to-prototype learning. Pattern Recognition, 2023, 134: Article No. 109109 doi: 10.1016/j.patcog.2022.109109
    [9] Liu C, Yang C, Yin X C. Open-set text recognition via character-context decoupling. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, USA: IEEE, 2022. 4513−4522
    [10] Liu C, Yang C, Yin X C. Open-set text recognition via shape-awareness visual reconstruction. In: Proceedings of the 17th International Conference on Document Analysis and Recognition. San José, USA: Springer, 2023. 89−105
    [11] Yu H Y, Chen J Y, Li B, Ma J, Guan M N, Xu X X, et al. Benchmarking Chinese text recognition: Datasets, baselines, and an empirical study. arXiv: 2112.15093, 2021.

    Yu H Y, Chen J Y, Li B, Ma J, Guan M N, Xu X X, et al. Benchmarking Chinese text recognition: Datasets, baselines, and an empirical study. arXiv: 2112.15093, 2021.
    [12] Wan Z Y, Zhang J L, Zhang L, Luo J B, Yao C. On vocabulary reliance in scene text recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 11422−11431
    [13] Zhang J Y, Liu C, Yang C. SAN: Structure-aware network for complex and long-tailed Chinese text recognition. In: Proceedings of the 17th International Conference on Document Analysis and Recognition. San José, USA: Springer, 2023. 244−258
    [14] Yao C, Bai X, Shi B G, Liu W Y. Strokelets: A learned multi-scale representation for scene text recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014. 4042−4049
    [15] Seok J H, Kim J H. Scene text recognition using a Hough forest implicit shape model and semi-Markov conditional random fields. Pattern Recognition, 2015, 48(11): 3584−3599 doi: 10.1016/j.patcog.2015.05.004
    [16] Li B C, Tang X, Qi X B, Chen Y H, Xiao R. Hamming OCR: A locality sensitive hashing neural network for scene text recognition. arXiv: 2009.10874, 2020.

    Li B C, Tang X, Qi X B, Chen Y H, Xiao R. Hamming OCR: A locality sensitive hashing neural network for scene text recognition. arXiv: 2009.10874, 2020.
    [17] Wang T, Xie Z, Li Z, Wang T, Xie Z, Li Z, et al. Radical aggregation network for few-shot offline handwritten Chinese character recognition. Pattern Recognition Letters, 2019, 125: 821−827 doi: 10.1016/j.patrec.2019.08.005
    [18] Cao Z, Lu J, Cui S, Zhang C S. Zero-shot handwritten Chinese character recognition with hierarchical decomposition embedding. Pattern Recognition, 2020, 107: Article No. 107488 doi: 10.1016/j.patcog.2020.107488
    [19] Chen J Y, Li B, Xue X Y. Zero-shot Chinese character recognition with stroke-level decomposition. In: Proceedings of the 30th International Joint Conference on Artificial Intelligence. Montreal, Canada: IJCAI, 2021. 615−621
    [20] Zu X Y, Yu H Y, Li B, Xue X Y. Chinese character recognition with augmented character profile matching. In: Proceedings of the 30th ACM International Conference on Multimedia. Lisboa, Portugal: ACM, 2022. 6094−6102
    [21] Shi B G, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298−2304 doi: 10.1109/TPAMI.2016.2646371
    [22] Liao M H, Zhang J, Wan Z Y, Xie F M, Liang J J, Lyu P Y, et al. Scene text recognition from two-dimensional perspective. In: Proceedings of the 33rd AAAI Conference on Artificial Intelligence, the 31st Innovative Applications of Artificial Intelligence Conference, the 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Honolulu, USA: AAAI Press, 2019. 8714−8721
    [23] Baek J, Kim G, Lee J, Park S, Han D, Yun S, et al. What is wrong with scene text recognition model comparisons? Dataset and model analysis. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 4714−4722
    [24] 杨春, 刘畅, 方治屿, 韩铮, 刘成林, 殷绪成. 开放集文字识别技术. 中国图象图形学报, 2023, 28(6): 1767−1791 doi: 10.11834/jig.230018

    Yang Chun, Liu Chang, Fang Zhi-Yu, Han Zheng, Liu Cheng-Lin, Yin Xu-Cheng. Open set text recognition technology. Journal of Image and Graphics, 2023, 28(6): 1767−1791 doi: 10.11834/jig.230018
    [25] He J, Chen J N, Lin M X, Yu Q H, Yuille A. Compositor: Bottom-up clustering and compositing for robust part and object segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, Canada: IEEE, 2023. 11259−11268
    [26] Pourpanah F, Abdar M, Luo Y X, Zhou X L, Wang R, Lim C P, et al. A review of generalized zero-shot learning methods. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(4): 4051−4070
    [27] Zhang J S, Du J, Dai L R. Radical analysis network for learning hierarchies of Chinese characters. Pattern Recognition, 2020, 103: Article No. 107305 doi: 10.1016/j.patcog.2020.107305
    [28] He S, Schomaker L. Open set Chinese character recognition using multi-typed attributes. arXiv: 1808.08993, 2018.

    He S, Schomaker L. Open set Chinese character recognition using multi-typed attributes. arXiv: 1808.08993, 2018.
    [29] Huang Y H, Jin L W, Peng D Z. Zero-shot Chinese text recognition via matching class embedding. In: Proceedings of the 16th International Conference on Document Analysis and Recognition. Lausanne, Switzerland: Springer, 2021. 127−141
    [30] Wang W C, Zhang J S, Du J, Wang Z R, Zhu Y X. DenseRAN for offline handwritten Chinese character recognition. In: Proceedings of the 16th International Conference on Frontiers in Handwriting Recognition (ICFHR). Niagara Falls, USA: IEEE, 2018. 104−109
    [31] Chen S, Zhao Q. Divide and conquer: Answering questions with object factorization and compositional reasoning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, Canada: IEEE, 2023. 6736−6745
    [32] Geng Z G, Wang C Y, Wei Y X, Liu Z, Li H Q, Hu H. Human pose as compositional tokens. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, Canada: IEEE, 2023. 660−671
    [33] Zhang H, Li F, Liu S L, Zhang L, Su H, Zhu J, et al. DINO: DETR with improved DeNoising anchor boxes for end-to-end object detection. In: Proceedings of the 11th International Conference on Learning Representations. Kigali, Rwanda: OpenReview.net, 2023.
    [34] Chng C K, Liu Y L, Sun Y P, Ng C C, Luo C J, Ni Z H, et al. ICDAR2019 robust reading challenge on arbitrary-shaped text-RRC-ArT. In: Proceedings of the International Conference on Document Analysis and Recognition (ICDAR). Sydney, Australia: IEEE, 2019. 1571−1576
    [35] Sun Y P, Ni Z H, Chng C K, Liu Y L, Luo C J, Ng C C, et al. ICDAR 2019 competition on large-scale street view text with partial labeling-RRC-LSVT. In: Proceedings of the International Conference on Document Analysis and Recognition (ICDAR). Sydney, Australia: IEEE, 2019. 1557−1562
    [36] Yuan T L, Zhu Z, Xu K, Li C J, Mu T J, Hu S M. A large Chinese text dataset in the wild. Journal of Computer Science and Technology, 2019, 34(3): 509−521 doi: 10.1007/s11390-019-1923-y
    [37] Shi B G, Yao C, Liao M H, Yang M K, Xu P, Cui L Y, et al. ICDAR2017 competition on reading Chinese text in the wild (RCTW-17). In: Proceedings of the 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Kyoto, Japan: IEEE, 2017. 1429−1434
    [38] Nayef N, Patel Y, Busta M, Chowdhury P N, Karatzas D, Khlif W, et al. ICDAR2019 robust reading challenge on multi-lingual scene text detection and recognition-RRC-MLT-2019. In: Proceedings of the International Conference on Document Analysis and Recognition (ICDAR). Sydney, Australia: IEEE, 2019. 1582−1587
    [39] Jaderberg M, Simonyan K, Vedaldi A, Zisserman A. Synthetic data and artificial neural networks for natural scene text recognition. arXiv: 1406.2227, 2014.

    Jaderberg M, Simonyan K, Vedaldi A, Zisserman A. Synthetic data and artificial neural networks for natural scene text recognition. arXiv: 1406.2227, 2014.
    [40] Gupta A, Vedaldi A, Zisserman A. Synthetic data for text localisation in natural images. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE Computer Society, 2016. 2315−2324
    [41] Mishra A, Alahari K, Jawahar C V. Scene text recognition using higher order language priors. In: Proceedings of the British Machine Vision Conference. Surrey, UK: BMVA Press, 2012. 1−11
    [42] Risnumawan A, Shivakumara P, Chan C S, Tan C L. A robust arbitrary text detection system for natural scene images. Expert Systems With Applications, 2014, 41(18): 8027−8048 doi: 10.1016/j.eswa.2014.07.008
    [43] Wang K, Babenko B, Belongie S. End-to-end scene text recognition. In: Proceedings of the IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE Computer Society, 2011. 1457−1464
    [44] Lucas S M, Panaretos A, Sosa L, Tang A, Wong S, Young R, et al. ICDAR 2003 robust reading competitions: Entries, results, and future directions. International Journal of Document Analysis and Recognition, 2005, 7(2−3): 105−122 doi: 10.1007/s10032-004-0134-3
    [45] Karatzas D, Shafait F, Uchida S, Iwamura M, Bigorda L G I, Mestre S R, et al. ICDAR 2013 robust reading competition. In: Proceedings of the 12th International Conference on Document Analysis and Recognition. Washington, USA: IEEE Computer Society, 2013. 1484−1493
    [46] Geng C X, Huang S J, Chen S C. Recent advances in open set recognition: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(10): 3614−3631 doi: 10.1109/TPAMI.2020.2981604
    [47] Yan R J, Peng L R, Xiao S Y, Yao G. Primitive representation learning for scene text recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 284−293
    [48] Bhunia A K, Sain A, Kumar A, Ghose S, Chowdhury P N, Song Y Z. Joint visual semantic reasoning: Multi-stage decoder for text recognition. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021. 14920−14929
    [49] Fang S C, Mao Z D, Xie H T, Wang Y X, Yan C G, Zhang Y D. ABINet++: Autonomous, bidirectional and iterative language modeling for scene text spotting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(6): 7123−7141 doi: 10.1109/TPAMI.2022.3223908
    [50] Borisyuk F, Gordo A, Sivakumar V. Rosetta: Large scale system for text detection and recognition in images. In: Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London, UK: ACM, 2018. 71−79
    [51] Atienza R. Vision transformer for fast and efficient scene text recognition. In: Proceedings of the 16th International Conference on Document Analysis and Recognition. Lausanne, Switzerland: Springer, 2021. 319−334
    [52] Zhang H, Luo G Y, Kang J, Huang S, Wang X, Wang F Y. GLaLT: Global-local attention-augmented light transformer for scene text recognition. IEEE Transactions on Neural Networks and Learning Systems, DOI: 10.1109/TNNLS.2023.3239696
    [53] Fang S C, Xie H T, Wang Y X, Mao Z D, Zhang Y D. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 7098−7107
  • 加载中
  • 图(11) / 表(3)
    计量
    • 文章访问数:  314
    • HTML全文浏览量:  178
    • PDF下载量:  100
    • 被引次数: 0
    出版历程
    • 收稿日期:  2023-09-04
    • 录用日期:  2024-04-19
    • 网络出版日期:  2024-07-11
    • 刊出日期:  2024-10-21

    目录

    /

    返回文章
    返回