Text Detection in Natural Scene Images Based on Enhanced Receptive Field and Fully Convolution Network
-
摘要: 自然场景图像质量易受光照及采集设备的影响, 且其背景复杂, 图像中文字颜色、尺度、排列方向多变, 因此, 自然场景文字检测具有很大的挑战性. 本文提出一种基于全卷积网络的端对端文字检测器, 集中精力在网络结构和损失函数的设计, 通过设计感受野模块并引入 Focalloss、GIoUloss 进行像素点分类和文字包围框回归, 从而获得更加稳定且准确的多方向文字检测器. 实验结果表明本文方法与现有先进方法相比, 无论是在多方向场景文字数据集还是水平场景文字数据集均取得了具有可比性的成绩.Abstract: The quality of natural scene images is influenced easily by the shooting environment and conditions, and scene image background is relatively complex and has a strong interference for detection, besides, text in scene images may have different colors, fonts, sizes, directions, languages and so on, all these situations make natural scene text detection be still a challenging research topic. This paper proposes an end-to-end text detector based on fully convolution network. We focus on the design of the network structure and the loss function, through adding the enhanced receptive field module and introducing Focalloss, GIoUloss for pixels classification and text boxes regression respectively, we gain a more stable accurate multi-oriented text detector. Our method provides promising performance compared to the recent state-of-the art methods on both the multi-oriented scene text dataset and horizontal text dataset.
-
Key words:
- Receptive field enhanced module /
- Focalloss /
- GIoUloss /
- full convolution network
-
近年来, 物联网、信息物理系统、工业互联网及其应用领域, 例如智慧家居、车联网、智慧工厂等各种智能互联系统得到了迅猛的发展.这种发展得益于通信和计算两种技术的巨大进步, 一方面, 通信技术的进步, 特别是无线通信网络的发展, 使得信息流动更容易, 成本更低, 促进了大规模互联系统的构建; 另一方面, 计算能力的进步, 特别是微型嵌入式计算芯片的发展, 使得更多的微型设备也可以具有计算能力, 为系统的智能化发展提供了物质基础[1-6].无线通信和嵌入式计算等技术在控制系统中的广泛使用为控制系统设计和分析提出了新的挑战, 也促使了各个不同但相关的研究领域的出现和发展.从考虑各种通信网络在控制系统信息传输中的作用的角度, 出现了网络化控制系统的概念, 该领域在过去近20年的大量研究为包含通信网络因素的控制系统的设计和分析奠定了坚实的基础[7-10]; 从考虑多个设备间互联及其拓扑结构和群体行为的角度, 为多自主体系统的研究提供了一个重要的模型基础[11-12]; 从物理系统和信息系统交互影响的角度, 信息物理系统的研究也在近些年蓬勃发展起来[13-14].
与上述角度不同, 本文关注各类智能系统中大量采用的微型处理器及其带来的计算能力限制问题.事实上, 各类智能系统以多个具有有限计算和通信能力的设备的互联互通为基本特征, 势必导致其计算能力成为关注的焦点, 一方面运行控制器设备本身的计算能力有限, 另一方面又要在互联的设备间共享计算资源, 使得对某特定的控制系统而言, 其控制器的可用计算资源成为有限时变且不可预测[15-16].
传统控制系统的可用计算资源很少有不可预测的特点.因为传统控制系统往往不存在大量设备的互联, 从而在系统边界上是封闭的, 即控制系统的各个组件对该系统是私有的.因此, 即便计算资源有限时变, 这一变化特点在控制系统的范畴内也往往是事先预知的.而对已知的时变资源的分配可以采用各种资源调度的算法进行有效处理[17-19].
在本文研究的问题中, 对于提供计算能力的设备, 仍依赖调度算法对该设备的计算资源进行全局分配, 但是, 因为全局调动算法的分配很难实时准确地将控制系统的需要考虑在内, 分配给控制系统的可用计算资源就难免具有有限时变且不可预知的特点.有限时变的特点意味着在某些时刻控制系统可能会因为计算资源太少而无法运行控制器, 使得系统开环, 在极端情况下可造成系统失稳, 而不可预测的特点又使得任何离线设计的方法失效.这使得不考虑这一新特性的传统控制方法很难在这种新情境下有效发挥作用, 从而要求一种全新的在线控制框架来处理这一问题.
本文面向计算受限控制系统提出一种全资源预测控制策略及相关控制器设计方法.该策略注意到了有限时变可用计算资源的另一个可能特点, 即在某些时刻可用计算资源可能极为充足, 在运行控制器外还有大量剩余, 因此就可以使用这些充足剩余的计算资源进行控制量的前向预测, 这些控制预测量进而能够在控制系统可用计算资源不足时闭合系统.这一策略仅使用已分配给控制系统的计算资源, 但通过对其更充分的利用可获得更好的控制系统性能.
本文结构安排如下:第1节严格定义所考虑的问题; 第2节提出全资源预测控制策略; 第3节提供了一种改进的模型预测控制算法作为该策略所要求的控制器的一种具体实现; 第4节使用基于MATLAB的数值仿真和MATLAB/LabVIEW联合仿真对提出的策略和算法进行验证; 第5节总结全文.
1. 问题描述
考虑图 1所示的控制系统, 其受控对象由离散时间多输入多输出线性时不变系统描述.
$ \begin{align}\label{sys} x(k+1)=Ax(k)+B u(k) \end{align} $
(1) 其中, $x(k)\in{\bf R}^n$, $u(k)\in{\bf R}^m$, $A\in{\bf R}^{n\times n}$, $B\in {\bf R}^{n\times m}$.
在图 1中, 控制器通过计算能力受限的某嵌入式处理器实现, 并且该处理器同时负责其他系统(可能并非控制系统)的计算任务.这一模型的提出受近些年快速发展的无线传感网络和信息物理系统等类系统的启发, 该类系统具有计算能力受限的设备大规模互联使用的基本特征.该模型意味着分配给所考虑的控制系统的计算资源一方面是有限的, 因为处理器的计算能力本身有限, 另一方面又呈现出不可预知的时变特性, 因为该计算能力与所考虑的控制系统外的其他系统和设备共享, 造成该计算能力在所考虑控制系统的边界之外而无法有效管理.
如果用$R(k)$表示$k$时刻分配给所考虑控制系统的可用计算资源, 用$R^*$表示处理器的总计算资源, 则有
$ \begin{align} R(k)\le R^* \end{align} $
(2) 将计算控制信号$u(k)$所需的最小计算资源记为$R_u^*$, 则应有$R^*_u<R^*$, 否则该处理器的最大计算能力都不足以运行控制器, 也就是对控制系统而言完全不可用.在时刻$k$控制量可被计算的条件是在此时刻控制系统可使用的计算资源不小于所要求的最小计算资源, 即
$ \begin{align} R_u^*\le R(k) \end{align} $
(3) 如式(3)不满足, 则控制信号$u(k)$无法计算.若式(3)太长时间不被满足, 则系统将很可能因为保持开环太长时间而不稳定, 这在实际系统中是不允许的.
式(2)和式(3)可合并为式(4), 这是传统控制方法能够使用的前提条件.
$ \begin{align} R_u^*\le R(k) \le R^*, ~~~ \forall k \end{align} $
(4) 然而, 可用计算资源的时变特性意味着在某些时刻$R(k)$会太过有限而不能计算控制信号, 即
$ \begin{align} \exists k, ~~~ {\rm s.t.} ~~~R(k)< R_u^* \le R^* \end{align} $
(5) 为了解决上述问题, 一种可能的解决方案是对计算资源进行全局调度.然而, 调度算法在该问题中难以见效, 原因有二: 1)在处理器的计算资源是有限的并且共享的系统和设备对处理器计算资源要求较高的前提下(这是本文考虑问题的出发点), 式(4)中的计算资源要求不可能对所有时刻都满足(否则传统控制方法即可满足要求), 意味着式(5)中的情形总会出现(在这些情形时传统控制方法失效); 2)调度算法通常无法将控制系统的实时计算资源要求考虑在内, 因此, 或者会分配计算资源过少造成式(5)中的情形, 或者太过保守将非必需的宝贵的计算资源分配给控制系统而造成浪费, 也就是会出现如下情形:
$ \begin{align} \exists k, ~~~ {\rm s.t.} ~~~R_u^*\ll R(k) \le R^* \end{align} $
(6) 综合上述讨论, 本文考虑如下问题:
问题1.考虑如图 1所示的控制系统, 其中控制系统可用计算资源是有限时变而不可预知的, 即在某些时刻会太少而不能执行控制器的计算(式(5)), 而在其他一些时刻在执行完控制器计算后还有大量剩余(式(6)).设计控制策略以有效使用计算资源, 提升控制系统性能.
注1. 图 1中嵌入式处理器的有限计算资源在控制系统的控制器和其他可能的共享设备中通过某种调度算法进行分配.本文并不研究这些计算资源的调度算法, 而是在一定的计算资源调度算法下, 研究如何对分配给控制系统的有限时变而不可预知的计算资源进行高效的使用.在这个意义上, 本文所做的研究并非是计算资源调度算法的替代, 而是其在控制系统应用场景下的补充.
2. 全资源预测控制策略
本节首先讨论控制系统可用计算资源与控制预测步长的一个基本关系, 随之给出全资源预测控制策略的描述, 最后讨论使用该策略的算法性能和闭环系统的稳定性.
2.1 可用计算资源与控制预测步长
本节的讨论主要基于如下事实[20]:控制器所需的计算资源随着控制预测步长的增加而严格增加.注意到计算资源一般由分配给的处理器时间来衡量, 在不引起误解的前提下, 用$R(k)$自身表示在$k$时刻分配给控制系统的处理器时间, 从而$R(k)\in {\bf R}_0^+$, 这里${\bf R}_0^+$是非负实数集.记计算控制预测步长$i$所需最小计算资源为$R_i^*$ (从而$R_0^*=0$且$R_1^*=R_u^*$), 有如下的从可用计算资源到控制预测步长的映射, $f:$ ${\bf R}_0^+$ $\rightarrow {\bf N}_0^+$, 其中${\bf N}_0^+$是非负整数集.
$ \begin{align} f(R(k))=N_k, ~ ~ ~ R_{N_k}^*\le R(k)<R_{N_k+1}^* \end{align} $
(7) 式(7)说明, 对时刻$k$的任意可用计算资源, 将有唯一的控制预测步长$N_k$与之对应.可以注意到, 函数$f(\cdot)$是分段常值且右连续的.
式(7)中的映射提供了看待控制系统可用计算资源$R(k)$的另一个视角, 即它可以被等价看作计算资源可以处理的控制预测步长$N_k$.另外, 从式(5)和式(6)可以得出: 1)若式(5)成立, 则$N_k=0$; 2)若式(6)成立, 则$N_k\gg 1$.
前一个条件$N_k=0$使得传统控制算法在此处失效, 因为可用的计算资源连一步控制信号都无法算出(要求$N_k\ge 1$, $\forall k$), 而后一个条件$N_k\gg 1$则提供了更为有效利用可用计算资源的可能性.注意到在这种情况下, 利用可用计算资源可以计算多步控制信号.
注2.式(7)中的映射是依赖具体的控制算法的.若控制算法本身复杂度高, 则由$R(k)$映射到的$N_k$值较小, 否则$N_k$值较大.但这并不影响这一映射的基本形式和$N_k$随$R(k)$递增且函数$f(\cdot)$是分段常值且右连续的基本性质, 因此也并不影响本文后续的讨论.
2.2 全资源预测控制策略及算法
本文提出的针对计算受限控制系统的全资源预测控制策略的基本架构见图 2.
传统控制方法仅计算当前时刻的控制量, 而在本文的全资源预测控制策略中, 可用的计算资源被充分使用计算尽可能多的前向预测控制量.这些预测控制量进而存储在执行器端以备使用.依照式(7)中的映射, 并记基于$k$时刻信息计算的$k+i$时刻的控制预测量为$u(k+i|k)$, $i=0, 1, \cdots, N_k$, 则$k$时刻的前向预测控制序列可构建如下:
$ \begin{align}\label{FCSOnlyCompCons} U(k|k)=[u(k|k) ~ u(k+1|k) ~ \cdots ~ u(k+N_k-1|k)] \end{align} $
(8) 图 2中的控制信号选择器包含两个部件: 1个寄存器, 能够存储最大可能长度的前向预测控制序列; 1个简单的逻辑电路, 可以用来选择合适的控制信号.控制信号选择器按如下方式工作:
1) 在新的前向控制预测序列到达时更新寄存器, 保证寄存器中的前向控制预测序列总是最新的.由于式(5), 寄存器中$k$时刻的前向控制预测序列并不一定是在当前时刻计算的.记$k$时刻寄存器中的前向控制预测序列已经在其中存储了$\chi_k^*$步, $k$时刻的前向控制预测序列则是在$k-\chi_k^*$时刻计算, 可写为$U(k-\chi_k^*|k-\chi_k^*)$.
2) 在当前计算资源不足无法计算控制信号时, 从前向控制预测序列中选取合适的替代控制量.使用上面符号, $k$时刻从$U(k-\chi_k^*|k-\chi_k^*)$中选取的控制量为
$ \begin{align}\label{conSigOnlyCompCons} u(k)=u(k|k-\chi_k^*) \end{align} $
(9) 尽管选取的控制量$u(k|k-\chi_k^*)$是基于滞后的系统状态(时刻$k-\chi_k^*$)计算的, 但该控制量是专为$k$时刻计算的, 因此若合理设计前向控制预测序列, 仍可在无法获得当前控制量时提供比传统的零控制更好的控制性能.
为使得在任何时刻从前向控制预测序列中都有控制量可用, 可用计算资源需满足一定条件, 如推论1所述.这也是此后所提算法1能够工作的前提条件.
推论1.若下式成立:
$ \begin{align}\label{conditionPBWork} N_{k-\chi_k^*}\ge \chi_k^*+1, ~~~\forall k>\chi_k^* \end{align} $
(10) 则式(9)中的控制量总在控制信号选择器中可供选择.
证明.注意到$k$时刻的前向控制预测序列$U(k$ $-$ $\chi_k^*|k-\chi_k^*)$是在$k-\chi_k^*$时刻计算的.为了使得按照式(9)选取的控制量在$U(k-\chi_k^*|k-\chi_k^*)$中, 前向控制预测序列的长度, 即$N_{k-\chi_k^*}$, 需大于或等于$k$ $-$ $(k-\chi_k^*)+1$, 这正是推论中给出的条件.
注3.考虑如下两种推论1的特例情况.
1) $\chi_k^*\equiv 0$.这一条件意味着控制系统的可用计算资源$R(k)$总能至少计算一步控制量, 即$N_k\ge 1$, $\forall k$.在这种情形下, 传统控制方法也可使用, 因此, 在此意义下本文方法也将传统控制方法作为特例.
2) $\exists k$, $\chi_k^*>0$.这一条件意味着控制系统的可用计算资源$R(k)$在时刻$k-\chi_k^*+1$到$k$内总不能计算任何控制量, 即$N_i\equiv0$, $k-\chi_k^*+1\le i \le k$.在这种情况下, 传统控制方法将无法工作, 而本文方法却总可以有预测控制量$u(k|k-\chi_k^*)$可用.
所提出的策略总结为算法1, 采用该算法的系统整体架构见图 2.
算法1.全资源预测控制策略
步骤1. 传感器采样系统状态并将采集数据传输至控制器;
步骤2. 由可用计算资源$R(k)$按照式(7)获得可计算的控制预测步长$N_k$, 进而按照式(8)计算前向控制预测序列并将之传至执行器;
步骤3. 控制信号选择器更新寄存器, 按式(9)选择控制量并令执行器执行控制量.
注4. 算法1并未考虑计算时间导致的时延.因为与控制系统的时间尺度相比, 该计算时延往往是足够小且可以忽略的.不过, 需要指出的是, 如果绝对必要, 这一时延可以放入到执行器的等待时延$\chi_k^*$中, 因此可以在不更改系统架构下进行有效处理.
注5. 算法1仅对已经分配给控制系统的计算资源做有利于控制系统性能的合理使用, 其权限局限于控制系统本身.对整个嵌入式处理器的计算资源的分配需由上一级机构, 即计算资源的调度算法做出.本文的全资源预测控制策略是在此意义下对计算资源调度的一个有效补充.
2.3 算法1性能讨论
传统控制方法在无法获得当前控制信号时, 往往或者使用零阶保持(即保持先前的控制输入), 或者采用零控制(使系统临时开环).这样, 面对本文考虑的计算资源有限的控制系统, 使用传统控制方法实际所采用的控制信号如下:
$ \begin{align}\label{controller-without-strategy} \tilde{u}(k)=\begin{cases} u(k-\chi_k^*|k-\chi_k^*) ~\mbox{或}~ 0, & \mbox{若式}~(5)~\mbox{成立} \\[1mm] u(k|k), & \mbox{其他} \end{cases} \end{align} $
(11) 与之相对应的, 采用全资源预测控制策略的实际控制信号由式(9)给出, 或等价地写为
$ \begin{align}\label{controller-with-strategy} u(k)=\begin{cases} u(k|k-\chi_k^*), & \mbox{若式}~(5)~\mbox{成立} \\[1mm] u(k|k), & \mbox{其他} \end{cases} \end{align} $
(12) 从式(11)和式(12)可以看出, 在控制系统被分配的计算资源充足时, 就实际使用的控制信号而言, 使用或不使用本文提出的全资源预测控制策略并无区别; 但是, 在当前计算资源不足以进行控制计算时(即式(5)成立), 本文策略提供了额外的自由度, 使得可以针对具体情形设计式(8)中的前向预测控制序列对本来缺少的控制信号进行替代补偿.
从这一角度来说, 本文提出的全资源预测控制策略通过充分使用分配给的计算资源(而并不要求更多), 可以实现至少不差于传统控制所带来的控制性能(使$u(k|k-\chi_k^*)=u(k-\chi_k^*|k-\chi_k^*) ~\mbox{或} ~0~$), 但通过合理设计式(8)中的前向预测控制序列$U(k|k)$, 提供了提升控制系统性能的自由度和可能性.
另外, 式(8)中的前向预测控制序列$U(k|k)$仅是一种一般形式, 针对具体形式和目标的系统还需要具体的设计.事实上, 只要可以产生所需的前向控制预测序列, 它允许所有可能的控制器设计方法.例如, 在第3节给出了一种基于改进的模型预测控制的设计方法.进一步, 从$U(k|k)$的一般性上说, 所提出的全资源预测控制策略可用于任意受控对象, 而并不局限于线性系统模型, 本文采用线性对象仅为了后续系统分析和具体前向预测控制序列实现的方便.
2.4 闭环系统稳定性
采用算法1的控制系统所使用的控制信号由式(8)和式(9)给出.但是, 式(8)中预测控制序列$U(k|k)$的设计是一个开放问题, 并没有事先规定任何特定形式, 因此闭环系统的具体形式和相应的闭环稳定性分析就难以一般性的给出.另一方面, 控制系统的可用计算资源由上层调度机构给出, 很多情况下可能无法事先估计, 这导致了对可用计算资源(进而$\chi_k^*$)定量描述的缺乏, 也使得一般性的闭环系统稳定性分析较难进行.
为了能够探讨闭环系统的稳定性, 考虑一种简单情况.首先假设预测控制序列$U(k|k)$采用状态反馈的情况.此时实际使用的控制信号$u(k|k-\chi_k^*)$也具有状态反馈的形式, 即
$ \begin{align} u(k|k-\chi_k^*) = K_{\chi_k^*} x(k-\chi_k^*) \end{align} $
(13) 其中, 状态反馈增益$K_{\chi_k^*}$显式依赖$\chi_k^*$.
闭环系统进而具有如下形式:
$ \begin{align} x(k+1) = Ax(k) + BK_{\chi_k^*} x(k-\chi_k^*) \end{align} $
(14) 其次, 有理由假设分配给控制系统的计算资源不是一直缺乏的, 那么存储在寄存器中的前向预测控制序列就总可以在有限时间内得到更新.即存在某上界$N_R$, 使得$0\le \chi_k^* \le N_R$.进而, 可构建增广系统状态$X(k)$为
$ \begin{align} X(k) = [x(k) ~ x(k+1) ~\cdots ~x(k+N_R)]^{\rm T} \end{align} $
(15) 闭环系统(14)的增广形式可写为
$ \begin{align}\label{augumented-closed-loop} X(k+1) = \Lambda_{\chi_k^*} X(k) \end{align} $
(16) 其中, $\Lambda_{\chi_k^*}$由$A$, $B$, $\chi_k^*$和$K_{\chi_k^*}$等参数确定.
将上述系统视为一般的切换系统, 则可以利用标准切换系统方法在李雅普诺夫理论和线性矩阵不等式框架下得到其稳定性条件.该理论方法已经较为成熟, 在相关文献中有更多的技术细节.
需要指出的是, 上述稳定性分析基于对控制律的状态反馈形式假设, 并不具有普适性, 所得结论也很难对前向控制预测序列的设计提供好的指导意义, 实际应用中闭环系统的稳定性尚需在具体的控制律设计方法给出后另行具体分析.不过, 尽管在此并未给出闭环系统稳定的一般结论, 但由前面两小节的分析可以看出, $U(k|k)$设计所带来的自由度可保证采用算法1的控制系统性能(也包括闭环稳定性)永远不差于常规方法.如何针对具体系统进行具体设计将是后续的主要工作.
3. 基于改进模型预测控制的前向控制预测序列计算
如前所述, 前向预测控制序列$U(k|k)$需针对所考虑系统具体化.针对本文所考虑系统形式(1), 本节提出一种改进的模型预测控制设计方法作为$U(k|k)$的一种具体实现方法.经典模型预测控制是一种有限时域优化控制方法, 通过优化有限步长的系统轨迹来求取一串控制序列, 然后将其中的第1步用于实际控制.通过在每一步的滚动优化, 模型预测控制方法可以处理噪声、不确定性和其他限制[21].
模型预测控制的目标函数一般定义如下:
$ \begin{align}\label{obj} J_{k}(N) = &\ X^{\rm T}(k|k)Q(N)X(k|k)\, + \nonumber\\[1mm] &\ U^{\rm T}(k|k)R(N) U(k|k) \end{align} $
(17) 其中, $J_{k}(N)$是$k$时刻的目标函数, 定义于式(8)的$U(k|k)$ $=$ $[u(k|k)~ \cdots~ u(k+N-1|k)]^{\rm T}$是需确定的控制预测序列, $X(k|k)=[x(k+1|k) ~\cdots~ x(k+N|k)]^{\rm T}$是预测状态轨迹, $Q(N)$和$R(N)$是权重矩阵, $N$为预测时域.
上述优化问题的计算复杂性主要决定于预测时域$N$.记解决预测时域为$N$的优化问题所需的最小计算资源为$R_{J_N}$, 式(7)中所定义的函数$f(\cdot)$可对目标函数(17)进一步具体化如下:
$ \begin{align}\label{mapSpecifiedMPC} f(R(k))=N_k, ~~~\mbox{若}~ R_{J_{N_k}}\le R(k)<R_{J_{N_k+1}} \end{align} $
(18) 依照式(18), 在如下讨论中将以$N_k$指代控制系统的可用计算资源$R(k)$.
从式(18)得到的具体形式的$f(\cdot)$意味着带目标函数(17)和$N=N_k$的优化问题可以在时刻$k$使用可用计算资源求解.为解决优化问题, $k$时刻的预测状态可递归求解如下:
$ \begin{align*} x(k+j|k)= A^{j}x(k) + \sum\limits_{l=0}^{j-1}A^{j-l-1}B u(k+l|k) \end{align*} $
定义$E(N_k)=[A^{\rm T} \cdots (A^{N_k})^{\rm T}]^{\rm T}$, $F(N_k)$是$N_k$ $\times$ $N_k$下三角矩阵块, 其非零项定义为$F(N_k)_{ij}=A^{i-j}B$, $j\le i $.则上式的向量形式可表示为
$ \begin{equation} X(k|k)=E(N_k)x(k)+F(N_k)U(k|k) \label{Yk} \end{equation} $
(19) 最优的前向控制预测序列可以通过将式(19)代入式(17)并最小化$J_k(N_k)$得到, 其解具有如下的状态反馈形式:
$ \begin{align}\label{FCS-MPC} U(k|k)=K(N_k)x(k) \end{align} $
(20) 其中,
$ \begin{align*} K(N_k)=&-(F^{\rm T}(N_k)Q(N_k)F(N_k)\, +\\[1mm] &\ R(N_k))^{-1}F^{\rm T}(N_k)Q(N_k)E(N_k) \end{align*} $
使用如上的改进模型预测控制方法进行全资源预测控制的步骤总结为算法2.
算法2.基于改进模型预测控制的全资源预测控制算法
步骤1. 传感器采样系统输出并将数据传输至控制器;
步骤2. 基于分配的计算资源$R(k)$, 依照式(18)决定前向控制预测序列的步长$N_k$, 通过式(20)计算前向控制预测序列并将之传至执行器;
步骤3. 控制选择器更新其寄存器并依照式(9)选择合适的控制量并令执行器应用至系统.
注6. 本节中的改进模型预测控制算法在两个方面不同于传统模型预测控制.首先, 算法2中的预测时域是时变的并决定于可用计算资源$R(k)$.其次, 传统模型预测控制只使用所计算的控制序列中的第一个, 而算法2却利用了所有可能的前向控制预测.
4. 仿真算例
本节通过如图 3所示的小车-倒立摆系统对所提出的全资源预测控制策略和算法进行验证.该系统可建模为式(1)中的线性系统, 其系统矩阵如下:
$ \begin{align*} &A=\left( \begin{array}{cccc} 0 & 1 &0 &0 \\ 0 & 0 & -m\times\dfrac{{\rm g}}{M} & 0\\[2mm] 0 & 0 & 0 &1 \\ 0 & 0 & (M+m)\times \dfrac{{\rm g}}{Ml} & 0 \end{array} \right) \\[2mm] &B=\left( \begin{array}{c} 1 \\ \dfrac{1}{M}\\[2mm] 0\\ -\dfrac{1}{Ml} \end{array} \right) \end{align*} $
其中, 状态变量$x(k)=[x_1(k) ~ x_2(k) ~ x_3(k) ~ x_4(k)]^{\rm T}$且$x_1(k)$为小车的位移, $x_2(k)$为小车的速度, $x_3(k)$为倒立摆与垂直方向的夹角或偏离角度, $x_4(k)$为刚性摆杆的角速度.各物理量都具有相应的单位, 其值如下:小球的质量$m=1$, 小车的质量$M=10$, 刚性摆长度$l=10$, 重力加速度${\rm g}=9.8$.
为了验证提出的控制策略的有效性, 考虑两种情况的比较, 两种情况都使用第3节提出的模型预测控制器, 但一种使用第2节提出的全资源预测控制策略, 另一种则不使用.也就是说, 前者可利用存储在前向控制预测序列中的预测控制量, 而后者在可用计算资源无法进行控制计算的时候, 即$R(k)$ $<$ $R^*_u$时, 只能使用零控制, 而在其他时刻则如传统模型预测控制一样使用预测序列的第1个控制量.
首先进行基于MATLAB的数值仿真, 进而采用MATLAB/LabVIEW相结合的联合仿真方法进行验证.
例1.基于MATLAB的数值仿真
将计算资源用整数表示, 并设处理器的最大计算资源$R^*=100$.设控制系统进行1~7步控制预测所需的最小计算资源如下:
$ \begin{align}\label{mapCompExmp} [R_1^* ~ R_2^* ~ R_3^* ~ R_4^* ~ R_5^* ~ R_6^* ~ R_7^*] = [25 ~ 31~ 40 ~ 51~ 68~ 84 ~ 105] \end{align} $
(21) 按定义, $R_u^*=R_1^*$, 并注意到$R_6^*<R^*<R_7^*$, 即处理器的最大计算资源可进行6步控制预测序列的计算.式(18)中的函数$f(\cdot)$可按上式随之定义.
控制系统的可用计算资源$R(k)$假设为某一马尔科夫过程, 并具有较高的概率小于$R^*_u$ (见式(5))或接近$R^*$ (见式(6)).在实际中, 已分配计算资源的突然大幅度切换较为少见, 因此在下一时刻控制系统的可用计算资源有较高概率仍保持在原有或相近水平.在$R(k)$的转移概率矩阵中本文也将此特性考虑在内.
在上述系统设置下, 控制系统可用计算资源$R(k)$的典型时间演化可见图 4 (a).由式(21)可知, 前向控制预测序列的长度$N_k$可由计算资源$R(k)$来确定, 如图 4 (b)所示.另外, 从图 4 (c)中$\chi^*_k$的演化可看出, 可用计算资源经常会太少不足以计算任何控制量, 这使得传统控制方法无法在这种情况下工作.
图 5 (a)的系统响应支持本文期望的结论:在不增加任何计算消耗的前提下, 使用我们的控制策略的系统状态响应更快的到达稳定, 并较少波动. 图 5 (b)也显示采用我们的控制策略的实际控制量也更为平滑.
例2. MATLAB/LabVIEW联合仿真
本例仍考虑图 3中的小车-倒立摆系统, 但使用MATLAB/LabVIEW联合仿真的方法来验证我们提出的全资源预测控制策略和算法的有效性.系统实现的架构见图 6.其中受控对象即小车-倒立摆系统在LabVIEW中实现, 而控制部分则在MATLAB中实现, 二者通过LabVIEW中的MATLAB脚本调用实现联合仿真. LabVIEW中的小车-倒立摆系统添加了一个很小的外部扰动以模拟真实情况.计算资源的刻画则以MATLAB的控制器程序运行时间为标准.因此, 与仅基于MATLAB的纯数值仿真相比, 这一联合仿真方案具有如下优点: 1) LabVIEW中实现的小车-倒立摆系统更为真实的模拟了受控对象; 2)计算资源的具体定量描述也更为真实, 因此可更有效地验证本文中提出的控制策略和算法.
控制器执行所需要的计算资源通过MATLAB重复实验并归一化, 结果如下:
$ \begin{align*} [R_1^* ~ R_2^* ~ R_3^* ~ R_4^* ~ R_5^* ~ R_6^* ~ R_7^*] = [23 ~ 30~ 38 ~ 49~ 65~ 80 ~ 100] \end{align*} $
与例1类似, 同样使用两种方法进行比较, 一种使用我们的全资源预测策略, 另一种不使用.系统响应证明了全资源预测控制策略可以保证倒立摆在垂直方向的稳定性(图 7 (a)), 而不使用我们的策略, 即便采用同样的控制器设计, 也无法保证倒立摆的稳定性(图 7 (b)).
5. 结论
通过对可用计算资源的充分利用, 在不增加额外计算资源要求的前提下实现了计算受限控制系统的性能提升.这是一种控制和计算的联合设计方法, 对该方法的进一步改进将依赖于前向预测控制序列的更为有效的设计, 另外对闭环系统稳定性的保证也是后续的研究工作之一.
-
表 1 ICDAR2015测试集检测结果对比
Table 1 Qualitative comparison on ICDAR2015 dataset
方法 召回率 (R) 精确度 (P) F 值 CNN MSER[22] 0.34 0.35 0.35 Islam 等[25] 0.64 0.78 0.70 AJOU[26] 0.47 0.47 0.47 NJU[22] 0.36 0.70 0.48 StradVision2[22] 0.37 0.77 0.50 Zhang 等[23] 0.43 0.71 0.54 Tian 等[27] 0.52 0.74 0.61 Yao 等[28] 0.59 0.72 0.65 Liu 等[29] 0.682 0.732 0.706 Shi 等[24] 0.768 0.731 0.750 East PVANET[15] 0.7135 0.8086 0.7571 East PVANET2x[15] 0.735 0.836 0.782 EAST PVANET2x MS[15] 0.783 0.833 0.807 TextBoxes++[30] 0.767 0.872 0.817 RRD[8] 0.79 0.8569 0.822 TextSnake[6] 0.804 0.849 0.826 TextBoxes++ MS[30] 0.785 0.878 0.829 Lv 等[7] 0.895 0.797 0.843 本文方法 0.789 0.854 0.82 表 2 MSRA-TD500测试集检测结果对比
Table 2 Qualitative comparison on MSRA-TD500 dataset
方法 召回率 (R) 精确度 (P) F 值 Epshtein 等[31] 0.25 0.25 0.25 TD-ICDAR[21] 0.52 0.53 0.50 Zhang 等[23] 0.43 0.71 0.54 TD-Mixture[21] 0.63 0.63 0.60 Yao 等[28] 0.59 0.72 0.65 Kang 等[32] 0.62 0.71 0.66 Yin 等[33] 0.62 0.81 0.71 East PVANET[15] 0.6713 0.8356 0.7445 EAST PVANET2x[15] 0.6743 0.8728 0.7608 TextSnake[6] 0.739 0.832 0.783 本文方法 0.689 0.925 0.79 表 3 ICDAR2013测试集检测结果对比
Table 3 Qualitative comparison on ICDAR2013 dataset
方法 召回率 (R) 精确度 (P) F 值 Fasttext[34] 0.69 0.84 0.77 MMser[35] 0.70 0.86 0.77 Lu 等[36] 0.70 0.89 0.78 TextFlow[37] 0.76 0.85 0.80 TextBoxes [38] 0.74 0.86 0.80 TextBoxes++[30] 0.74 0.86 0.80 RRD[8] 0.75 0.88 0.81 He 等[39] 0.73 0.93 0.82 FCN[23] 0.78 0.88 0.83 Qin 等[40] 0.79 0.89 0.83 Tian 等[41] 0.84 0.84 0.84 TextBoxes MS[38] 0.83 0.88 0.85 Lv 等[7] 0.933 0.794 0.858 TextBoxes++ MS[30] 0.84 0.91 0.88 EAST PVANET2x[15] 0.8267 0.9264 0.8737 Tang 等[42] 0.87 0.92 0.90 本文方法 0.858 0.931 0.893 表 4 多种文字检测方法在ICDAR2015上的精度和速度对比结果
Table 4 Comparison of accuracy and speed on ICDAR2015 dataset
方法 测试图片尺寸
(像素)设备 帧率
(帧/s)F 值 Zhang 等[23] MS TitanX 0.476 0.54 Tian 等[27] ss-600 GPU 7.14 0.61 Yao 等[28] 480 p K40m 1.61 0.65 Shi 等[24] 768 × 768 TitanX 8.9 0.750 EAST PVANET[15] 720 p TitanX 16.8 0.757 EAST PVANET2x[15] 720 p TitanX 13.2 0.782 TextBoxes++[30] 1024 × 1024 TitanX 11.6 0.817 RRD[8] 1024 × 1024 TitanX 6.5 0.822 TextSnake[6] 1280 × 768 TitanX 1.1 0.826 TextBoxes++ MS[30] MS TitanX 2.3 0.829 Lv 等[7] 512 × 512 TitanX 1 0.843 本文方法 720 p TitanX 12.5 0.82 表 5 本文方法各组件在ICDAR2015数据集上的作用效果
Table 5 Effectiveness of various designs on ICDAR2015 dataset
ResNet50 感受野增强模块 Focalloss GIoUloss 召回率 (R) 精确度 (P) F 值 × × × × 0.735 0.836 0.782 √ × × × 0.764 0.833 0.797 √ √ × × 0.766 0.845 0.802 √ √ √ × 0.776 0.853 0.813 √ √ √ √ 0.789 0.854 0.82 -
[1] Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y, et al. SSD: Single shot multibox detector. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer, 2016. 21−37 [2] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. In: Proceedings of the 2015 Advances in Neural Information Processing Systems. NIPS, 2015. 91−99 [3] He W H, Zhang X Y, Yin F, Liu C L. Deep direct regression for multi-oriented scene text detection. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 745−753 [4] Deng D, Liu H F, Li X L, Cai D. Pixellink: Detecting scene text via instance segmentation. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, LA, USA: AAAI, 2018. 6773−6780 [5] Yan S, Feng W, Zhao P, Liu C L. Progressive scale expansion network with octave convolution for arbitrary shape scene text detection. In: Proceedings of the 2019 Asian Conference on Pattern Recognition. Springer, Cham, 2019. 663−676 [6] Long S B, Ruan J Q, Zhang W J, He X, Wu W H, Yao C. TextSnake: A flexible representation for detecting text of arbitrary shapes. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 19−35 [7] Lv P Y, Yao C, Wu W H, Yan S C, Bai X. Multi-oriented scene text detection via corner localization and region segmentation. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7553−7563 [8] Liao M H, Zhu Z, Shi B G, Xia G S, Bai X. Rotation-sensitive regression for oriented scene text detection. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 5909−5918 [9] Lyu P Y, Liao M H, Yao C, Wu W H, Bai X. Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 71−88 [10] Lin T Y, Goyal P, Girshick R, He K M, Dollar P. Focal loss for dense object detection. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 2999−3007 [11] Rezatofighi H, Tsoi N, Gwak J, Sadeghian A, Reid I, Savarese S. Generalized intersection over union: A metric and a loss for bounding box regression. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 658−666 [12] Lin T Y, Dollar P, Girshick R, He K M, Hariharan B, Belongie S. Feature pyramid networks for object detection. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 936−944 [13] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 2017, 60(6): 84-90 doi: 10.1145/3065386 [14] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 770−778 [15] Zhou X Y, Yao C, Wen H, Wang Y Z, Zhou S C, He W R, et al. EAST: An efficient and accurate scene text detector. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 2642−2651 [16] Liu S T, Huang D, Wang Y H. Receptive field block net for accurate and fast object detection. In: Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018. 404−419 [17] Szegedy C, Ioffe S, Vanhoucke V, Alemi A A. Inception-v4, Inception-ResNet and the impact of residual connections on learning. In: Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI, 2017. 4278−4284 [18] Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions. arXiv: 1511.07122, 2015. [19] Karatzas D, Shafait F, Uchida S, Iwamura M, Bigorda L G I, Mestre S R, et al. ICDAR 2013 robust reading competition. In: Proceedings of the 12th International Conference on Document Analysis and Recognition. Washington, USA: IEEE, 2013. 1484−1493 [20] Karatzas D, Gomez-Bigorda L, Nicolaou A, Ghosh S, Bagdanov A, Iwamura M, et al. ICDAR 2015 competition on robust reading. In: Proceedings of the 13th International Conference on Document Analysis and Recognition. Tunis, Tunisia: IEEE, 2015. 1156−1160 [21] Yao C, Bai X, Liu W Y, Ma Yi, Tu Z W. Detecting texts of arbitrary orientations in natural images. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012. 1083−1090 [22] Yao C, Bai X, Liu W Y. A unified framework for multioriented text detection and recognition. IEEE Transactions on Image Processing, 2014, 23(11): 4737-4749 doi: 10.1109/TIP.2014.2353813 [23] Zhang Z, Zhang C Q, Shen W, Yao C, Liu W Y, Bai X. Multi-oriented text detection with fully convolutional networks. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 4159−4167 [24] Shi B G, Bai X, Belongie S. Detecting oriented text in natural images by linking segments. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE 2017. 3482−3490 [25] Islam M R, Mondal C, Azam M K, Islam A S M. Text detection and recognition using enhanced MSER detection and a novel OCR technique. In: Proceedings of the 5th International Conference on Informatics, Electronics and Vision (ICIEV). Dhaka, Bangladesh: IEEE, 2016. 15−20 [26] Gupta A, Vedaldi A, Zisserman A. Synthetic data for text localisation in natural images. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 2315−2324 [27] Tian Z, Huang W L, He T, He P, Qiao Y. Detecting text in natural image with connectionist text proposal network. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer, 2016. 56−72 [28] Yao C, Bai X, Sang N, Zhou X Y, Zhou S C, Cao Z M. Scene text detection via holistic, multi-channel prediction. arXiv: 1606.09002, 2016. [29] Liu Y L, Jin L W. Deep matching prior network: Toward tighter multi-oriented text detection. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: 2017. 3454−3461 [30] Liao M H, Shi B G, Bai X. TextBoxes++: A single-shot oriented scene text detector. IEEE Transactions on Image Processing, 2018, 27(8): 3676-3690 doi: 10.1109/TIP.2018.2825107 [31] Epshtein B, Ofek E, Wexler Y. Detecting text in natural scenes with stroke width transform. In: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010. 2963−2970 [32] Kang L, Li Y, Doermann D. Orientation robust text line detection in natural images. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014. 4034−4041 [33] Yin X C, Pei W Y, Zhang J, Hao H W. Multi-orientation scene text detection with adaptive clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1930-1937 doi: 10.1109/TPAMI.2014.2388210 [34] Buta M, Neumann L, Matas J. FASText: Efficient unconstrained scene text detector. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1206−1214 [35] Zamberletti A, Noce L, Gallo I. Text localization based on fast feature pyramids and multi-resolution maximally stable extremal regions. In: Proceedings of the 2015 Asian Conference on Computer Vision. Singapore, Singapore: Springer, 2014. 91−105 [36] Lu S J, Chen T, Tian S X, Lim J H, Tan C L. Scene text extraction based on edges and support vector regression. International Journal on Document Analysis and Recognition (IJDAR), 2015, 18(2): 125-135 doi: 10.1007/s10032-015-0237-z [37] Tian S X, Pan Y F, Huang C, Lu S J, Yu Kai, Tan C L. Text flow: A unified text detection system in natural scene images. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: 2015. 4651−4659 [38] Liao M H, Shi B G, Bai X, Wang X G, Liu W Y. Textboxes: A fast text detector with a single deep neural network. In: Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI, 2017. 4161−4167 [39] He T, Huang W L, Qiao Y, Yao J. Text-attentional convolutional neural network for scene text detection. IEEE Transactions on Image Processing, 2016, 25(6): 2529-2541 doi: 10.1109/TIP.2016.2547588 [40] Qin S Y, Manduchi R. A fast and robust text spotter. In: Proceedings of the 2016 IEEE Winter Conference on Applications of Computer Vision. Lake Placid, USA: IEEE, 2016. 1−8 [41] Tian C N, Xia Y, Zhang X N, Gao X B. Natural scene text detection with MC-MR candidate extraction and coarse-to-fine filtering. Neurocomputing, 2017, 260: 112-122 doi: 10.1016/j.neucom.2017.03.078 [42] Tang Y B, Wu X Q. Scene text detection and segmentation based on cascaded convolution neural networks. IEEE Transactions on Image Processing, 2017, 26(3): 1509-1520 doi: 10.1109/TIP.2017.2656474 [43] 李文英, 曹斌, 曹春水, 黄永祯. 一种基于深度学习的青铜器铭文识别方法. 自动化学报, 2018, 44(11): 2023-2030Li Wen-Ying, Cao Bin, Cao Chun-Shui, Huang Yong-Zhen. A deep learning based method for bronze inscription recognition. Acta Automatica Sinica, 2018, 44(11): 2023-2030 [44] 王润民, 桑农, 丁丁, 陈杰, 叶齐祥, 高常鑫, 等. 自然场景图像中的文本检测综述. 自动化学报, 2018, 44(12): 2113-2141Wang Run-Min, Sang Nong, Ding Ding, Chen Jie, Ye Qi-Xiang, Gao Chang-Xin, et al. Text detection in natural scene image: A survey. Acta Automatica Sinica, 2018, 44(12): 2113-2141 [45] 金连文, 钟卓耀, 杨钊, 杨维信, 谢泽澄, 孙俊. 深度学习在手写汉字识别中的应用综述. 自动化学报, 2016, 42(8): 1125-1141Jin Lian-Wen, Zhong Zhuo-Yao, Yang Zhao, Yang Wei-Xin, Xie Ze-Cheng, Sun Jun. Applications of deep learning for handwritten Chinese character recognition: A review. Acta Automatica Sinica, 2016, 42(8): 1125-1141 [46] Wang W H, Xie E Z, Li X, Hou W B, Lu T, Yu G, Shao S. Shape robust text detection with progressive scale expansion network. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2018. 9328−9337 -