2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于单字符注意力的全品类鲁棒车牌识别

穆世义 徐树公

吴高昌, 刘强, 柴天佑, 秦泗钊. 基于时序图像深度学习的电熔镁炉异常工况诊断. 自动化学报, 2019, 45(8): 1475-1485. doi: 10.16383/j.aas.c180453
引用本文: 穆世义, 徐树公. 基于单字符注意力的全品类鲁棒车牌识别. 自动化学报, 2023, 49(1): 122−134 doi: 10.16383/j.aas.c211210
WU Gao-Chang, LIU Qiang, CHAI Tian-You, QIN S. Joe. Abnormal Condition Diagnosis Through Deep Learning of Image Sequences for Fused Magnesium Furnaces. ACTA AUTOMATICA SINICA, 2019, 45(8): 1475-1485. doi: 10.16383/j.aas.c180453
Citation: Mu Shi-Yi, Xu Shu-Gong. Full-category robust license plate recognition based on character attention. Acta Automatica Sinica, 2023, 49(1): 122−134 doi: 10.16383/j.aas.c211210

基于单字符注意力的全品类鲁棒车牌识别

doi: 10.16383/j.aas.c211210
基金项目: 国家自然科学基金(61871262)资助
详细信息
    作者简介:

    穆世义:上海大学通信与信息工程学院硕士研究生. 主要研究方向为深度学习, 计算机视觉和光学字符识别. E-mail: mushiyishu@shu.edu.cn

    徐树公:上海大学通信与信息工程学院教授. 主要研究方向为无线通信和模式识别. 本文通信作者. E-mail: shugong@shu.edu.cn

Full-category Robust License Plate Recognition Based on Character Attention

Funds: Supported by National Natural Science Foundation of China (61871262)
More Information
    Author Bio:

    MU Shi-Yi Master student at the School of Communication and Information Engineering, Shanghai University. His research interest covers deep learning, computer vision and optical character recognition

    XU Shu-Gong Professor at the School of Communication and Info-rmation Engineering, Shanghai University. His research interest covers wireless communication and pattern recognition. Corresponding author of this paper

  • 摘要: 复杂场景下的高精度车牌识别仍然存在着许多挑战, 除了光照、分辨率不可控和运动模糊等因素导致的车牌图像质量低之外, 还包括车牌品类多样产生的行数不一和字数不一等困难, 以及因拍摄角度多样出现的大倾角等问题. 针对这些挑战, 提出了一种基于单字符注意力的场景鲁棒的高精度车牌识别算法, 在无单字符位置标签信息的情况下, 使用注意力机制对车牌全局特征图进行单字符级特征分割, 以处理多品类车牌和倾斜车牌中的二维字符布局问题. 另外, 该算法通过使用共享参数的多分支结构代替现有算法的串行解码结构, 降低了分类头参数量并实现了并行化推理. 实验结果表明, 该算法在公开车牌数据集上实现了超越现有算法的精度, 同时具有较快的识别速度.
  • 电熔镁砂(Fused magnesium furnace, FMF)具有熔点高、结构致密、抗氧化性强、耐压强度高、耐腐蚀性强以及化学性能稳定等优良特性, 在工业、军事领域乃至航天工业中都是不可或缺的战略资源.目前, 提炼电熔镁砂的工艺流程通常是利用三相交流电熔镁炉(简称电熔镁炉)通过电弧来对以菱镁矿石为主的粉末状原料加热熔炼.通过吸收电弧产生的热量将矿石粉末加热到近3 000℃, 分解为熔液状态的氧化镁(MgO)和二氧化碳(CO$_2$)气体, 再通过降温结晶过程排除杂质, 从而得到高纯度的MgO晶体, 即电熔镁砂[1-3].而熔炼所用容器为有限使用次数的铁制炉壳, 并通过水循环系统进行冷却.

    电熔镁炉的运行主要包括加热熔化、加料和排气三种正常工况.由于我国电熔镁矿石存在品位低、矿物组成复杂以及成分波动大等特性, 物料在熔化过程中电阻和熔点不稳定, 易发生欠烧等异常工况[4-5], 对生产安全、人员安全和产品质量产生很大影响, 通常是由于原料杂质成分导致局部熔点升高, 以及不适当的电流设定值使局部熔炼区温度低于原料熔化温度, 熔池过于粘稠, 使CO$_2$气体无法正常排出, 迫使溶液穿透炉壳保护层与铁质炉壳直接接触, 造成炉壳温度过高至烧红烧透, 处理不及时甚至会导致烧漏、熔液漏出现象.

    由于超高温电熔镁炉熔液温度不直接可测, 目前欠烧异常工况主要通过现场工人定期观察炉壳特征来诊断.但人工巡检工作强度大、危险性高, 且准确性高度依赖操作人员的经验和状态.此外, 通常从正常工况到产生欠烧工况仅需2 $\sim$ 3分钟, 而巡检工人通常需要对每个厂区内的三台电熔镁炉进行往返巡视, 滞后性大, 处理不及时会导致漏检.针对上述问题, 亟需一种自动且快速有效的电熔镁炉工况诊断方法.文献[4]提出了一种基于电流数据的工况诊断方法, 通过各工况的历史电流数据提取出一系列专家规则库, 再利用该规则库对现场运行工况进行实时诊断.但实际生产的众多不稳定因素导致该方法无法准确、稳定地工作, 例如熔池中不断产生的CO$_2$气泡导致熔液翻滚, 使液面与三相电极间距不断变化, 电阻也会随之改变, 导致电流无规律的波动.此外, 根据电流数据人为制定专家规则也高度依赖于专家经验, 易发生漏报和误报.在计算机视觉领域, 卷积神经网络(Convolutional neural network, CNN)由于出色的空间特征提取性能被用于图像分割[6]、图像超分辨率复原[7-8]以及图像识别[9-10].利用CNN的空间特征提取特性以及生成式对抗神经网络(Generative adversarial networks, GAN)的样本生成特性, 文献[11]通过静态图像信息进行工况诊断, 但在训练与预测过程仅利用单帧图片输入, 缺少对连续时间信息的感知, 因此模型无法描述实际生产的动态过程.而在动态过程的表征及识别方面, 循环神经网络(Recurrent neural network, RNN)由于特殊的时序编码结构被广泛应用于语音辨识[12-13]、视频识别[14]以及视频预测中[15].但RNN结构仅利用全连接结构作为输入, 因此往往忽略了图像序列中的空间特征.

    根据前文所述, 电熔镁炉欠烧工况时溶液凝固在炉壳内壁导致炉壳烧红烧透, 为异常工况诊断提供了更直观的视觉信息.本文主要工作如下:

    为排除熔炼现场众多随机因素的干扰, 提出灰度一致性变换和时序残差图像提取的预处理方法; 针对电熔镁炉异常工况发生发展的视觉特征, 提出将CNN与RNN相结合的工况诊断方法, 其中CNN对预处理后的序列图像提取空间特征并编码为时间独立的特征向量, 再将一系列按时间序列排列的特征向量输入至RNN用以提取时序特征, 从而挖掘出异常工况从无到有再到显著的时空特性; 针对电熔镁炉异常工况标记数据稀疏及获取困难等问题, 且为了避免人工逐帧标记, 结合电熔镁炉异常工况的位置相对固定以及随时间变化缓慢的特性, 提出一种基于加权中值滤波的欠烧工况标记方法, 并利用电熔镁炉实际生产过程的视频信号, 对所提方法与现有两种深度学习模型(基于CNN的模型与基于RNN的模型)进行了实验比较, 验证了所提方法的有效性.

    电熔镁炉生产现场如图 1 (a)所示, 其中实线框内为所标记的炉壳区域.当欠烧工况开始发生时, 炉壳的局部区域会被粘稠MgO熔液烧红(如图 1 (b)所示, 其中欠烧工况发生的部位被标记在实线框内).通过识别炉壳的图像序列中的高亮度区域便能对这一工况进行判断.但由于高亮度水雾以及炉壳上固有的白斑干扰, 直接通过图像中高亮度区域来判断往往导致极高概率的误报.通过对原始图像序列提取出时序残差信息(如图 1 (c)显示了某时刻欠烧工况下的时序残差图像, 两处高亮度区域为欠烧区域), 可有效抑制炉壳上固有特征(如白斑)带来的干扰, 以及由于不同图像序列中光照不一致造成的环境干扰.

    图 1  电熔镁炉欠烧工况视觉特征分析
    Fig. 1  Analysis of visual features of semimolten condition for an FMF

    在空间维度上, 虽然欠烧工况的区域形状不定, 但由于其形成的内在机理是由于熔液凝固在炉壳内壁所致, 因此具有一定的空间特征规律(如图 1 (b)所示).最直接的异常工况诊断方法是对残差图像进行逐帧空间特征提取, 再对工况进行分类.然而, 由于环绕在炉壳周围的水雾也呈现出高亮度特征, 且区域形状不定, 会对最终的分类结果造成较大干扰.因此, 大量水雾带来的干扰成为从空间维度准确诊断电熔镁炉欠烧工况的主要难点.简单地将空间特征作为判断依据并无法完整描述欠烧工况.

    在时间维度上, 欠烧区域一旦发生则位置随时间相对固定, 且亮度与范围随时间递增的特征不同, 水雾在时间维度中呈现出持续时间短且空间位置不确定性强的特征.图 1 (d)图 1 (c)中竖线标记位置处残差随时间的变化, 其中横坐标为时间序列, 纵坐标为图像空间维度中的垂直维度$ y $.图 1 (d)中, 虚线框内为水雾干扰区域, 随时间呈现出类似噪声分布特征; 实线框内为欠烧工况区域, 在时间维度上呈现出位置相对固定而强度递增的特征.但由于各种因素干扰, 欠烧工况区域并不是严格随时间变大, 即会在某些时刻变小甚至在短时间内消失(如图 1 (d)箭头所示).因此, 在利用每一时刻图像的空间信息的同时, 需要结合其在长时间跨度的整体动态特性作为诊断依据.

    本文利用电熔镁炉现场生产过程的视频信号, 结合欠烧(异常)工况的视觉特征, 分别利用CNN与RNN提取空间与时间维度上的特征, 并建立如图 2所示的基于卷积循环神经网络(Convolutional recurrent neural network, CRNN)的电熔镁炉欠烧工况诊断结构.该结构主要由三部分组成:图像序列预处理模块、基于卷积循环神经网络的特征提取模块和基于加权中值滤波的工况区域标记模块.

    图 2  基于CRNN的电熔镁炉欠烧工况诊断策略结构图
    Fig. 2  Framework of the proposed semimolten condition diagnosis based on CRNN for FMF

    将图像序列预处理得到的结果作为网络输入, 基于加权中值滤波的工况区域标记作为网络的期望输出, 建立基于CRNN的特征提取模型.在实时诊断过程中(图 2中实线框部分), 对于实时视频信号首先通过视频序列预处理模块, 处理后的图像序列输入训练得到的CRNN模型得到诊断结果输出.

    具体地, 图像序列预处理模块由图像序列灰度一致性变换与时序残差图像提取步骤组成, 前者用以排除电熔镁炉炉口火焰亮度波动造成的相机不稳定曝光干扰, 后者用以排除不同炉壳表面固有视觉特征带来的干扰.在基于RNN的特征提取模块中, CNN利用输入的图像提取空间特征, 并输出时序上无关联的空间特征向量, 而RNN则利用该特征向量在时序维度上进行特征提取, 并最终获得工况诊断信息.本文使用对时间感知能力较强的长短期记忆(Long short-term memory, LSTM)结构[16]作为RNN的基本单元.由于对实际视频信号进行逐帧的异常工况区域标记过程复杂且成本过高, 本文结合欠烧异常工况的视觉特征, 利用基于加权中值滤波的工况区域标记模块对标记数据进行稠密化与区域优化, 而初始标签数据获取阶段仅需要粗略与时序稀疏的人工标记.

    2.2.1   图像序列预处理

    首先对相机采集的原始图像序列依次进行灰度一致性变换和时序残差图像提取.

    1) 图像序列灰度一致性变换.在生产过程中, 电熔镁炉炉口亮度波动会对相机曝光产生随机干扰, 相机自动调整曝光量会使拍摄的炉体图像明暗不一.这种整体的环境光波动会对后续空间特征提取产生干扰.因此, 本文利用灰度一致性约束[17]对炉壳图像序列进行处理.令$ V_ {\rm RGB} = \{I_1, I_2, \cdots, I_N\} $为相机拍摄的图像序列, 其中$ I_n $为第$ n $帧RGB空间的图像.首先通过颜色空间映射将RGB空间的图像序列$ V $转换到Lab空间, 即$ V_ {\rm Lab} = f_{\rm Lab}(V_ {\rm RGB}) = $ $ \{f_ {\rm Lab}(I_1) $, $ f_ {\rm Lab}(I_2), \cdots, f_ {\rm Lab}(I_N)\} $, 其中$ f_ {\rm Lab} $为颜色空间映射函数(将RGB空间图像映射到Lab空间).现将Lab空间的图像$ f(I_n) $简写为$ H_n $, 则经过灰度一致性约束的图像$ \hat{H} $为

    $ \begin{align} &\hat{H}^l_n = \frac{\varphi(H^l_t)}{\varphi(H^l_n)}(H^l_n-\bar{H}^l_n)+\bar{H}^l_t, \ \ l\in\{{\rm L, a, b}\}\\ &H_t = \frac{1}{N_1}\sum\limits_{i = 1}^{N_1}H_i \end{align} $

    (1)

    其中, L, a, b分别为Lab颜色空间的三个通道, $ H^l_n $为第$ n $帧Lab空间中的第$ l $通道的图像, $ \hat{H}^l_n $为约束后对应的图像, $ H^l_t $为参考帧$ t $下的图像, $ \bar{H} $表示对图像$ H $取均值, $ \varphi(H) $表示对图像$ H $取标准差.为排除相机噪声干扰, 将$ H_t $取为前$ N_1 $帧图像的平均值作为参考图像而非单一帧图像. $ N_1 $的取值主要依据熔炼过程中炉口火焰的闪烁周期和炉壳周围的水雾移动速度共同决定, 本文取经验值50.则通过灰度一致性变换后的图像序列$ \hat{V}_{\rm Lab} = $ $ \{\hat{H}_1, \hat{H}_2, \cdots $, $ \hat{H}_N\} $.最后将Lab空间的图像序列转换回RGB空间, 得到$ \hat{V}_ {\rm RGB} = $ $ \{\hat{I}_1, \hat{I}_2, \cdots, \hat{I}_N\} $.

    2) 时序残差图像提取.不同电熔镁炉可能存在固有的视觉特征差异, 例如图 1 (b)中炉壳上的白斑, 以及不同的环境光源.为排除这些固有视觉特征差异对工况诊断的干扰以及使后续网络模型可以用于不同电熔镁炉, 本文对经过灰度一致性变换后的图像序列进行时序残差图像(图 1 (c))提取, 其值为

    $ \begin{align} R_n = f_{\rm YUV}(\hat{I}_n)-\frac{1}{N_2}\sum\limits_{i = N_1+1}^{N_1+N_2}f_ {\rm YUV}(\hat{I}_i) \end{align} $

    (2)

    其中, $ R_n $表示第$ n $帧时序残差图像, $ f_ {\rm YUV} $为将图像从RGB空间映射到YUV空间的函数.类似式(1), 取前$ N_2 $帧图像的平均值作为参考图像, 其中$ N_2 $取经验值50.本文仅采用式(2)中时序残差图像$ R_n $的Y通道作为后续基于深度学习的工况诊断的网络模型输入, 即时序残差图像序列$ V_R = $ $ \{R_1 $, $ R_2 $, $ \cdots $, $ R_N\} $.

    需要注意的是, 本文提到的时序残差图像是指相对于初始状态(即前50帧的平均状态)的残差而非相对于上一时刻的残差.另一点需要注意的是, 由于熔炼初期不会发生欠烧工况, 使用熔炼初期的前$ N_2 $帧图像的平均值作为参考图像.因此, 该预处理不会带来诊断延迟.

    2.2.2   基于卷积循环神经网络的特征提取

    1) 基于CNN的空间特征提取.传统图像处理方法依靠人为定义的算子(如梯度算子、Sobel算子和SIFT算子)提取图像特征.这些由算子提取特征的操作可视为算子$ \omega $与残差图像$ R $的卷积操作, 即$ F = \omega\ast R $, 其中, $ \ast $代表卷积操作, $ F $为图像特征矩阵.与传统方法不同, CNN将卷积算子也称为卷积核$ W $, 视为可以调节的网络参数, 即依靠大量训练数据和优化算法对这些参数进行自动调整, 从而达到提取图像特征的目的.因此本文将一层卷积网络描述为

    $ \begin{align} L_ {\rm conv}^j = {\rm ReLu}(W^j\ast L_ {\rm conv}^{j-1}+B^j) \end{align} $

    (3)

    其中, $ L_ {\rm conv}^j $为第$ j $层网络输出, $ L_ {\rm conv}^{j-1} $为前一层网络输入(对于第1层网络, $ L_ {\rm conv}^{j-1} $为输入数据, 即时序残差图像), $ B_i $为偏置参数, ReLu$ (\cdot) $为修正线性单元(Rectified linear units, ReLu), $ {\rm ReLu}(x) = $ $ {\rm max}(x, 0) $.本文使用每10帧时序残差图像$ R = $ $ \{R_1, R_2, \cdots, R_{10}\} $作为CNN的输入, 即输入为一个$ w\times h\times10 $的三维矩阵, 其中$ w $为图像宽度, $ h $为图像高度.本文采用6层卷积网络(即$ j = 1, 2 $, $ \cdots $, $ 6 $), 其结构以及每一层网络的卷积核$ W $大小如图 3所示.第1层网络的卷积核为$ 10 \times 11 \times 11 $ $ \times $ $ 64 $, 输出大小为$ 64\times(w-10)\times (h - 10) $; 第2层的卷积核为$ 64\times 5 \times 5 \times128 $, 输出大小为$ 128\times (w $ $ - $ $ 14)\times (h-14) $; 第3层的卷积核为$ 128 \times 3 \times 3 $ $ \times $ $ 128 $, 输出大小为$ 128\times(w-16)\times(h-16) $; 第4层的卷积核为$ 128\times3\times3 \times 64 $, 输出大小为$ 64 $ $ \times $ $ (w-18)\times (h-18) $; 第5层的卷积核为$ 64 \times 5 \times 5 $ $ \times $ $ 64 $, 输出大小为$ 64 \times (w-22) \times (h-22) $; 第6层的卷积核为$ 64\times11\times11\times 64 $, 输出大小为$ 64 $ $ \times $ $ (w-32)\times (h-32) $.为了使网络具有非线性映射关系, 第1 $ \sim $ 5层网络后均包括一层ReLu操作(图 3中为便于观察网络结构没有给出).由于每层网络无填充(Padding)操作, 因此输出的空间维度大小逐层降低.例如, 对于空间维度大小为$ 33 \times 33 \times 10 $的输入, 最终输出为64维的向量.

    图 3  卷积神经网络结构
    Fig. 3  Architecture of the proposed CNN

    2) 基于RNN的时序特征提取.本文使用的循环神经网络直接利用CNN的输出$ y_ {\rm conv} $作为输入, 结构如图 4所示, 其中网络输入$ x $对应于卷积网络输出$ y_ {\rm conv} $. RNN的隐含层单元不仅输出结果$ y $, 还包括状态$ h $, 且该状态$ h $通过不断循环(如图 4 (a)所示), 将时间序列信息引入网络.本文将输入$ x $的当前时刻及历史时刻的序列作为RNN的输入, 展开为如图 4 (b)所示的结构.需要注意的是, 由于状态$ h $通过不断循环传递时序信息, 时间$ t $的状态$ h^t $为该时刻的输入$ x $, 即$ y_ {\rm conv}^t $, 以及之前时刻的输入$ \{x^{t-1} $, $ x^{t-2}, \cdots\} $, 即$ \{y_ {\rm conv}^{t-1}, y_ {\rm conv}^{t-2}, \cdots\} $共同作用的结果.因此, RNN的循环结构使得该网络能够描述输入序列的时间特性.

    图 4  循环神经网络结构
    Fig. 4  Structure of the RNN

    传统循环神经网络单元, 存在随着时间递增, 后节点对前节点的感知能力下降, 即长期依赖问题[18].而长短期记忆单元, 即LSTM单元, 通过门的设计来保护与控制每个节点的状态, 其中一个门仅允许少量的线性交互, 使得时间较早的信息不会流失[19].因此, 本文利用LSTM作为RNN结构的核心单元来提取来自于CNN的时序特征, 结构如图 5所示, 其中

    $ \begin{align} f^t& = \sigma(W_f\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_f)\\ i^t& = \sigma(W_i\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_i)\\ \tilde{C}^t& = \tanh(W_C\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_C)\\ C^t& = f^t\odot C^{t-1}+i^t\odot\tilde{C}^t\\ o^t& = \sigma(W_o\times[h^{t-1}, y_ {\rm conv}^t]^ {\rm T}+b_o)\\ h^t& = o^t\odot\tanh(C^t) \end{align} $

    (4)
    图 5  LSTM单元
    Fig. 5  The LSTM unit

    其中, $ f^t $, $ i^t $, $ \tilde{C}^t $, $ o^t $均为LSTM单元内部变量; $ \sigma(\cdot) $为sigmoid非线性单元, 即$ \sigma(x) = (1+{\rm e}^{-x})^{-1} $, $ \tanh $为双曲正切函数; $ \odot $为哈达马积, $ W_f $, $ W_i $, $ W_C $和$ W_o $为LSTM单元权值, $ b_f $, $ b_i $, $ b_C $和$ b_o $为LSTM单元偏置; $ y_{\rm conv}^t $为序列$ t $的卷积神经网络输出, $ h^{t-1} $与$ C^{t-1} $为$ t-1 $时刻LSTM单元输出; $ C^{t} $与$ h^{t} $为$ t $时刻LSTM单元输出.通过对LSTM单元输出$ h_t $使用softmax回归, 最终LSTM网络输出$ t $时刻(即第$ t $帧图像序列)诊断结果的概率分布$ P(y_t) $为

    $ \begin{align} &P(y_t = k) = {\rm softmax}(h^t) = \\ &\qquad\frac{\exp(W_{hk}h^t_k+b_k)}{\sum\limits_{k'\in K}\exp(W_{hk}h^t_{k'}+b_k)} \end{align} $

    (5)

    其中, $ K $为诊断结果类别空间, $ K = [0, 1] $ (0代表正常区域, 1代表欠烧区域).最终诊断结果$ \hat{y}_t $为

    $ \begin{align} \hat{y}_t = \arg\mathop{\max}_k(P(y_t = k), k\in K) \end{align} $

    (6)

    本文将两个网络(CNN与LSTM)作为一个整体进行训练, 其损失函数$ L_ {\rm Loss} $为交叉熵, 定义如下

    $ \begin{align} L_ {\rm Loss} = -\sum\limits_{x\in X}\sum\limits_{k\in K}Q(y = k)\log(P(y = k)) \end{align} $

    (7)

    其中, $ (x, y) $为一组数据对, $ X $为批处理数据中数据对数量, $ Q(y = k) $为标签数据的概率分布, 即对于正常区域$ Q(y = 0) = 1 $, $ Q(y = 1) = 0 $, 而欠烧区域$ Q(y = 0) = 0 $, $ Q(y = 1) = 1 $.

    2.2.3   基于加权中值滤波的工况区域标记

    电熔镁炉欠烧工况主要依赖于人工判断, 但人为地对训练集图像序列的每一帧进行标签制作成本较高.例如, 对一段持续1小时的图像序列进行标签制作, 视频为30帧/s, 则需要对10万帧数据进行欠烧工况发生位置的标记.尽管训练集不成对的网络训练方法已被提出[20], 但需要利用只有输入数据和只有标签数据分别对网络进行训练, 再通过同时有输入和标签的数据对进行网络参数调整.因此, 仍然需要获取大量带有标签的工况数据.

    为了快速并准确获取大量已标记数据, 本文首先做出下述观察:

    1) 欠烧工况一旦发生, 其空间位置保持不变, 在残差图像中呈现出的区域大小随时间增加.

    2) 欠烧区域形状不规则, 但是一旦发生, 其形状不随时间发生较大变化.

    产生这两项观察的根本原因是由于接触炉壳内壁的MgO高粘度溶液不会随时间发生较大变化.

    结合上述两项观察, 本文提出一种从稀疏标记数据中自动得到密集标记数据的方法, 仅需手动对图像序列中的2帧图像进行欠烧工况的粗略定位, 就能够通过自动标记优化方法对整段图像序列的欠烧工况发生区域进行准确标记, 其具体步骤如下:

    1) 对图像序列进行稀疏粗略标记.对一段时序残差图像中欠烧工况发生的起始帧$ G_1 $与结束帧$ G_N $进行人工定位, 构成含有粗略定位的参考标记图像$ \bar{Y}_1 $, $ \bar{Y}_N $ (如图 6 (c)所示).

    图 6  基于加权中值滤波的训练集标签生成
    Fig. 6  Generation of training labels based on weighted median filter

    2) 将稀疏粗略标记传播至其他帧图像.利用线性投影将第一步中的两帧参考标记图像$ \bar{Y}_1, \bar{Y}_N $, 的标记区域传播至其他帧, 构成$ \bar{Y}_1, \bar{Y}_2, \cdots, \bar{Y}_N $, 其中线性投影可描述为

    $ \begin{align} \mathit{\boldsymbol{O}}_i = \mathit{\boldsymbol{O}}_1+\frac{\mathit{\boldsymbol{O}}_N-\mathit{\boldsymbol{O}}_1}{N-1}(i-1) \end{align} $

    (8)

    其中, $ \mathit{\boldsymbol{O}}_i $为第$ i $帧对应的人工定位坐标.

    3) 标记区域优化.前两步得到的标记区域仅为粗略定位, 因此本文利用加权中值滤波对每一帧的参考标记图像$ \bar{Y}_N $进行优化处理以得到最终的标签数据$ Y_n $:

    $ \begin{align} Y_n(p)& = \arg\mathop{ {\rm med}}_{k\in K}(h_p(k))\\ h_p(k)& = \sum\limits_{q\in \mathit{\boldsymbol{N}}(p)}\omega(p, q)\delta(\bar{Y}_n(q)-k)\bar{Y}_n(q)\\ \omega(p, q)& = \exp\left(-\frac{|R_i(p)-R_i(q)|^2}{2\rho_R^2}-\frac{|x_p-x_q|^2}{2\rho_x^2}\right) \end{align} $

    (9)

    其中, $ \mathit{\boldsymbol{N}}(p) $为像素$ p $的邻域, $ x_p $为像素$ p $的空间坐标, $ \delta $为克罗内克函数(Kronecker delta function), 即当内部变量为0时$ \delta(\cdot) = 1 $, 否则为$ \delta(\cdot) = 0 $, $ R_i $为预处理得到的第$ i $帧时序残差图像, $ \rho_R $和$ \rho_x $为加权中值滤波器的固有参数.本文取$ \rho_R = 0.08 $, $ \rho_x $ $ = $ $ 2 $.图 6 (d)为经过加权中值滤波后的标签, 结合图 6 (a)图 6 (b)可以看到该标签能够对欠烧区域进行准确定位.

    本节结合实际的电熔镁炉过程介绍卷积循环神经网络的具体实现细节, 并从电熔镁炉欠烧工况的诊断率与诊断敏感度两方面, 对提出的深度学习网络模型进行评价.其中, 诊断率由网络模型对所有测试帧的诊断正确率表示, 包括漏诊断率(欠烧工况发生时未检测出)、误诊断率(正常状态下诊断为欠烧工况)和总诊断率(总的诊断准确率); 诊断敏感度用从实际发生欠烧工况到由模型诊断出欠烧工况发生所历经的帧数表示.

    实验主要与现有的纯卷积神经网络模型[21]和纯循环神经网络模型[12]进行对比.其中, 文献[21]对输入图像分别提取局部空间特征与全局空间特征进行图像的显著性检测.具体地, 文献[21]对局部裁剪图像以及整体图像, 分别利用两个卷积神经网络进行空间特征提取, 再通过一层全连接层融合不同尺度的空间特征.而文献[12]利用含有多层LSTM单元的RNN进行语言识别.为了尽可能保证不同网络之间的对比公平性, 对文献[21]及文献[12]均采用7层网络结构, 即对文献[21]采用4层CNN与2层全连接层进行不同尺度的空间特征提取, 并利用1层全连接层进行特征融; 对文献[12]采用7层LSTM单元(本文提出的网络包含6层卷积层与1层LSTM单元).此外, 通过去除预处理步骤中的图像序列灰度一致性变换和时序残差图像提取这两步来分析提出的预处理方法对最终诊断结果的影响.

    本文使用从电熔镁炉熔炼现场采集的5组图像序列, 分辨率分别为$ 330\times380\times300 $, $ 330\times380\times 367 $, $ 315\times385\times800 $, $ 360\times480\times201 $和$ 360\times321\times200 $, 其中, 前两个维度分别为水平与垂直方向的空间维度, 最后一个维度为时间维度(即视频帧数).将第1 $ \sim $ 3组序列作为训练数据集, 第4组和第5组用于进行应用验证.由于工业背景下存在数据获取困难的问题, 直接使用采集到的图像序列用于会导致训练集过小, 网络容易产生过拟合现象.为此, 本文对第1 $ \sim $ 3组训练数据进行窗口化处理. CNN网络输入为$ 33\times33\times10 $的数据(即空间维度取$ 33\times33 $), LSTM网络总共所需的输入为$ 64\times10 $的数据, 则网络需要$ 33\times33\times19 $的数据输入.从欠烧工况开始时刻进行训练数据选取, 3组数据的开始时刻分别为121、266、290帧, 数据选取步幅为[14, 14, 8].共产生51 452组训练数据对.使用第2.2.3节中的训练数据集标记方法对训练与评价数据进行标记仅耗时60.46 s (除去对欠烧工况区域的人工定位时间).网络训练采用批处理方法, 每批含有128组数据, 则共产生401批数据, 其中350批作为训练数据, 50批作为验证数据.

    本文利用tensorflow[22]框架建立卷积循环神经网络模型(CNN网络与LSTM网络), 并利用式(7)中的损失函数对两个网络同时进行训练.使用均值为0、方差为$ 1\times10^{-3} $的高斯分布来初始化网络模型的权值, 偏置则初始化为0.使用Adam优化算法[23]进行网络训练, 初始学习率为$ 1\times10^{-3} $, 学习衰减率为0.99, 即对所有训练集训练一次则学习率衰减为之前的0.99倍.网络训练在i7-4770, 3.40 GHz的4核CPU、内存为16 GB的电脑中运行.通过$ 4 $ $ \times $ $ 10^5 $次训练, 网络模型逐渐收敛, 收敛曲线如图 7所示, 其中, 训练Loss和训练Acc分别表示训练时的损失函数Loss和准确率; 验证Loss和验证Acc分别表示验证时的损失函数Loss和准确率.

    图 7  卷积循环神经网络收敛曲线
    Fig. 7  Convergence curve of the convolutional recurrent network

    本文利用电熔镁炉熔炼现场采集的图像序列4和5对提出的卷积循环神经网络进行测试.将测试集中每一帧图像及其对应的工况作为一组测试数据, 即总测试数据数量为序列总帧数(401组).漏诊断率$ r_O $、误诊断率$ r_F $和总诊断率$ r_A $定义为

    $ \begin{align} r_O& = \frac{\mbox{未诊断出的欠烧工况帧数}}{\mbox{序列总帧数}} \times100 \%\\ r_F& = \frac{\mbox{错误诊断为欠烧工况的帧数}}{\mbox{序列总帧数}} \times100 \%\\ r_A& = \frac{\mbox{诊断正确的帧数}}{\mbox{序列总帧数}}\times100 \% \end{align} $

    (10)

    表 1显示了文献[21]提出的卷积神经网络模型、文献[12]采用的循环神经网络模型和本文使用的卷积循环神经网络对电熔镁炉欠烧工况的诊断率.所有方法均使用第2.2.1节描述的预处理后的时序残差图像作为输入.

    表 1  电熔镁炉欠烧工况的诊断率(%)
    Table 1  Diagnosis rates of semimolten condition for FMF (%)
    漏诊断率 误诊断率 总诊断率
    CNN[21] 5.74 13.22 81.04
    LSTM[12] 8.23 0.50 91.27
    本文方法 4.99 0.00 95.01
    下载: 导出CSV 
    | 显示表格

    表 1可以看出, 由于缺少在时间维度上的特征提取, 文献[21]中的卷积神经网络模型的总诊断率最低; 文献[12]中的循环神经网络模型由于缺少对图像序列中每个像素的领域像素进行编码(即空间特征提取)而导致总的诊断率低于本文提出的方法; 本文提出的CNN与RNN结合的方法通过对图像序列的空间特征和时序特征同时进行提取, 从而能够达到较高的诊断率, 且误诊断率较低(对本次实验的序列4和5, 误诊断率为0).

    图 8显示了对图像序列4和5的欠烧工况诊断结果, 包括序列中炉壳表面某一欠烧区域的平均灰度值, 对应的时序残差图像平均灰度值, 以及文献[12]中的循环神经网络模型和本文方法的诊断结果.文献[12]中的循环神经网络模型对欠烧工况的诊断在序列4中滞后标签数据8帧(0.27 s), 在序列5 (图 8 (b))中滞后27帧(0.90 s), 而本文方法在对欠烧工况的诊断序列4中滞后标签数据17帧(0.57 s), 在序列5中滞后1帧(0.03 s), 因此本文提出的方法对异常工况有着更高的敏感度.此外, 从图 8可以看出, 循环神经网络模型[12]的诊断结果稳定性较差, 例如在图 8 (b)中判断当前工况为异常工况后仍然可能将后续序列判断为正常工况, 而本文提出的方法相对而言更加稳定.为了方便方法比较, 对序列4从101 $ \sim $ 181帧(显示间隔为10帧)的结果进行了可视化展示, 每列自上而下分别为输入序列、CNN[21]、LSTM[12]和本文方法的结果, 诊断的欠烧区域以最小包围矩形标记显示如图 9所示.从图 9可以看到, 文献[12]中仅使用LSTM的诊断模型与文献[21]中仅使用CNN的诊断模型相比诊断结果更加稳定, 但两者均倾向于将高亮度水雾区域误诊断为欠烧区域(例如, 文献[21]诊断结果的第101, 111, 161, 181帧, 文献[12]诊断结果的第101, 141帧).而本文所提的卷积神经网络与循环神经网络相结合的方法则能够很大程度地避免这类误诊断现象.

    图 8  电熔镁炉欠烧工况诊断结果
    Fig. 8  Results of the semimolten condition diagnosis for FMF
    图 9  电熔镁炉欠烧工况诊断结果可视化
    Fig. 9  Visualization of diagnosis result of semimolten condition for FMF

    在算法运行角度方面, 在与训练所用电脑相同配置(i7-4770, 3.40 GHz的4核CPU, 16 GB内存)条件下, 所提方法在线诊断时对分辨率为360 $ \times $ 480的视频信号的执行速率为0.0271 s/帧, 其中预处理耗时0.0057 s/帧, 卷积循环神经网络耗时0.0214 s/帧.因此, 整个算法流程每秒可处理约37帧图像, 能够满足实时性要求.

    本节对第2.2节描述的预处理步骤(图像序列灰度一致性变换和时序残差图像提取)对最终欠烧工况诊断结果的影响进行分析, 并对训练中间结果, 即CNN的第一层卷积核进行可视化, 以分析空间特征对整个工况诊断的意义.

    表 2为预处理步骤对欠烧工况诊断率的影响结果, 其中, 无预处理为去除灰度一致性变换和时序残差图像提取步骤的结果, 无预处理1为去除灰度一致性变换步骤的结果, 无预处理2为去除时序残差图像提取步骤的结果.本文提出的两步预处理步骤分别解决了炉口火焰对相机曝光产生的影响和冗余信息对网络模型产生的影响.从表 2可以看出, 两者对最终的诊断结果均产生较为重要的影响, 其中图像序列灰度一致性变换(即预处理1)对诊断结果的影响更大.此外, 从图 8中输入图像平均灰度值与残差图像平均灰度值这两条曲线可以看出, 未做任何处理的图像序列, 图像灰度值在异常工况发生时无任何变化, 而经过时序残差图像提取后, 其灰度值变化较为明显.

    表 2  预处理对诊断率的影响(%)
    Table 2  Influences of two preprocessing procedures on diagnosis rates (%)
    漏诊断率 误诊断率 总诊断率
    无预处理 11.47 7.23 81.30
    无预处理1 10.22 6.73 83.04
    无预处理2 7.48 2.74 89.77
    本文方法 4.99 0.00 95.01
    下载: 导出CSV 
    | 显示表格

    图 10为本文使用的卷积循环神经网络模型中CNN权值参数的可视化结果, 其中卷积核按照方差从大到小排列, 且每个卷积核均被归一化到$ [0, 1] $区间.图 10 (a)为$ L_ {\rm conv}^{1} $层$ (10\times11\times11\times64) $卷积核$ W^1 $的第一个通道(共10个通道).在这些卷积核中, 部分核呈现出类似噪声分布的状态, 主要是由于相机本身的噪声以及生产现场的水雾在空间与时间上呈现出无规律的变化; 另一部分核呈现出较为规律的模式, 类似人为定义的特征提取算子, 例如边缘提取算子点提取算子和纹理提取算子.这些卷积核通过将分布在不同空间位置的图像信息聚合为一个整体输入到LSTM网络中, 并通过参数训练来调整每个空间位置对最终输出结果的影响, 从而将异常工况在炉壳的空间分布信息利用起来, 使之在最终的工况诊断中发挥作用.

    图 10  卷积神经网络的核函数可视化
    Fig. 10  Visualization of kernels in the trained CNN

    由于本文使用的CNN模型采用多帧残差图像作为输入, 网络也起到一部分时序特征提取作用, 则卷积核$ W^1 $的通道可以理解为卷积核随时间的分布.图 10 (b)展示了$ L_ {\rm conv}^1 $层第3个卷积核(即图 10 (a)中实线框标记出的卷积核)随输入通道(即时间维度)的变化结果, 可以看到卷积核随时序呈现较为缓慢的变化.但仅从10帧图像无法判断该特征是由故障工况引起还是由大范围水雾干扰引起.因此仅采用10帧图像作为CNN的输入无法提取足够的时序信息来判断故障工况的发生, 而利用更多的时序图像来将图像随时间的变化建立到CNN中代价较高[24] (例如, 将30帧图像序列建立到模型中则需要第一层核函数为30层), 这对网络收敛速度和后续的诊断速度都会产生较大的影响.由于循环神经网络有着出色的时序记忆特性, 可以充分提取出序列图像随时间的变化关系, 因此本文对电熔镁炉异常工况的时序特征提取主要通过循环神经网络来实现.

    本文结合生产现场的实际视频信息, 提出了一种基于卷积循环神经网络的异常工况诊断方法.通过图像序列灰度一致性变换和时序残差预处理, 排除了生产现场环境光变化以及不同电熔镁炉炉壳固有视觉特征的变化带来的干扰, 提高了诊断精度.在此基础上, 使用工况的视频信号, 从空间和时间两个维度提取电熔镁炉异常工况局部缓变的时空特征, 并诊断异常工况, 相比其他方法具有更高的诊断精度.

    本文提出的卷积循环神经网络可推广于其他具有强时空特征的其他工业过程的工况诊断, 以及难以利用电流电压等易受到强干扰的一维数据进行工况诊断的工业过程; 所提出的基于加权中值滤波方法可推广应用于工况标记困难的其他工业过程.

    结合现有视频语义预测方法[25]以及基于过程数据故障趋势预测方法[26], 下一步将在本文提出的卷积循环神经网络框架基础上, 开展基于视频信号的故障趋势预测研究工作.

  • 图  1  注意力机制改进

    Fig.  1  Evolution of attention mechanism

    图  2  CARNet算法结构图

    Fig.  2  Framework of the proposed algorithm CARNet

    图  3  轻量化特征提取

    Fig.  3  Lightweight feature extraction

    图  4  单字符注意力网络

    Fig.  4  Single character attention network

    图  5  单字符特征分割

    Fig.  5  Single character feature segmentation

    图  6  脚本生成的车牌样本

    Fig.  6  License plate samples generated by script

    图  7  常见7字符车牌注意力图

    Fig.  7  Attention maps of seven-character license plates

    图  8  双行黄牌、新能源车牌及黑色车牌注意力图

    Fig.  8  Attention maps of double-line and new energy and black plate licenses

    图  9  真实复杂场景下的检测识别测试

    Fig.  9  Detection and recognition test in complex scene

    图  10  识别错误示例

    Fig.  10  Recognition error cases

    表  1  在CCPD上的车牌识别准确率(%)

    Table  1  License plate recognition accuracy on CCPD (%)

    算法平均基础集明暗集远近集旋转集倾斜集天气集挑战集
    Li 等[1]94.497.894.894.587.992.186.881.2
    Xu 等[27]95.598.596.994.390.892.587.985.1
    Wang 等[23]96.698.996.196.491.993.795.483.1
    Zou 等[8]97.899.398.598.692.594.499.386.6
    Yang 等[4]97.599.196.995.997.198.097.585.9
    Qin 等[33]97.599.593.393.798.295.998.992.9
    Qiao 等[34]96.999.097.195.595.096.595.983.1
    Zhang 等[20]98.599.698.898.896.497.698.588.9
    Liu 等[35]98.7499.7399.0599.2397.6298.4098.8988.51
    GCN98.7999.7099.0798.9698.3398.8298.6689.42
    CARNet99.50
    (0.02)
    99.89
    (0.01)
    99.57
    (0.08)
    99.56
    (0.04)
    99.68
    (0.04)
    99.80
    (0.01)
    99.38
    (0.06)
    94.92
    (0.09)
    下载: 导出CSV

    表  2  本文算法有效性评估(%)

    Table  2  Evaluation of the effectiveness of the algorithm of this paper (%)

    评估指标算法平均基础集明暗集远近集旋转集倾斜集天气集挑战集
    $ {R_{LP}} $GCN98.7999.7099.0798.9698.3398.8298.6689.42
    (0.10)(0.03)(0.11)(0.11)(0.25)(0.19)(0.13)(0.54)
    CARNet99.5099.8999.5799.5699.6899.8099.3894.92
    (0.02)(0.01)(0.08)(0.04)(0.04)(0.01)(0.06)(0.09)
    $ {R_{Char}} $GCN99.7499.9599.8399.7999.6899.7899.7797.28
    (0.02)(0.01)(0.02)(0.01)(0.05)(0.03)(0.02)(0.14)
    CARNet99.9099.9899.9499.9399.9599.9799.9098.89
    (0.01)(0.01)(0.01)(0.01)(0.01)(0.01)(0.01)(0.01)
    $ {R_{C\_Char}} $GCN99.7299.8799.7899.7899.5699.7199.7098.18
    (0.02)(0.01)(0.02)(0.01)(0.06)(0.03)(0.06)(0.07)
    CARNet99.9299.9999.9399.8999.9599.9899.9599.13
    (0.01)(0.01)(0.02)(0.02)(0.01)(0.01)(0.02)(0.01)
    $ {R_{W\_Char}} $GCN99.7499.9799.8399.8099.7099.8099.7897.13
    (0.02)(0.01)(0.02)(0.01)(0.05)(0.03)(0.01)(0.16)
    CARNet99.9099.9899.9499.9399.9599.9799.8998.85
    (0.01)(0.01)(0.01)(0.01)(0.01)(0.01)(0.01)(0.01)
    下载: 导出CSV

    表  3  在CLPD上的车牌识别准确率

    Table  3  License plate recognition accuracy on CLPD

    算法训练数据${R_{LP} }$(%)
    Zhang 等[20]CCPD 基础集70.8
    GCN[22]CCPD 基础集74.4
    Zou 等[8]CCPD 基础集80.7
    Liu 等[35]CCPD 基础集80.3
    CARNetCCPD 基础集82.2
    CARNet混合数据集83.9
    下载: 导出CSV

    表  4  在混合品类车牌上的识别准确率

    Table  4  Recognition accuracy on mixed types of license plates

    车牌类别数量 (张)GCN[22] (%)CARNet (%)
    蓝牌车牌105096.399.0
    新能源绿牌101041.978.5
    大型车后牌66035.862.1
    教练车牌86044.974.8
    港澳车牌158053.774.9
    大型车前牌98063.275.8
    下载: 导出CSV

    表  5  各算法速度比较

    Table  5  Comparison of algorithm speed

    车牌识别算法车牌识别耗时 (ms)
    Zhang 等[20]7.9
    GCN[22]18.7
    CARNet4.9
    下载: 导出CSV

    表  6  低功耗嵌入式硬件测试

    Table  6  Low-power embedded device test

    算法硬件平台推理引擎耗时 (ms)
    Qin 等[9]Jetson NanoTensorFlow68
    CARNetJetson NanoPytorch41
    CARNetJetson TX2Pytorch30
    CARNetHi3516DV300NNIE46
    下载: 导出CSV

    表  7  特征提取网络消融实验

    Table  7  Feature extraction ablation experiment

    特征提取$ {R_{LP}} $(%)参数量
    计算复杂度 (GMacs)
    Resnet45[25]99.513.94 M14.66
    Xception1999.51.87 M1.71
    下载: 导出CSV

    表  8  分类头参数共享消融实验

    Table  8  Classification head weight sharing ablation experiment

    参数共享$ {R_{LP}} $(%)参数量
    计算复杂度 (GMacs)
    99.51.87 M1.71
    99.43.82 M1.71
    下载: 导出CSV

    表  9  单字符注意力消融实验

    Table  9  Ablation experiments for single-character attention

    单字符注意力$ {R_{LP}} $(%)参数量
    计算复杂度 (GMacs)
    99.51.87 M1.71
    99.13.04 M1.02
    下载: 导出CSV
  • [1] Li H, Wang P, You M Y, Shen C H. Reading car license plates using deep neural networks. Image and Vision Computing, 2018, 72: 14-23 doi: 10.1016/j.imavis.2018.02.002
    [2] Wu C H, Xu S G, Song G C, Zhang S Q. How many labeled license plates are needed. In: Proceedings of the Chinese Conference on Pattern Recognition and Computer Vision. Guangzhou, China: 2018. 334−346
    [3] Huang G, Liu Z, Maaten L V, Weinberger K Q. Densely connected convolutional networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 2261−2269
    [4] Yang Y X, Xi W, Zhu C K, Zhao Y H. HomoNet: Unified license plate detection and recognition in complex scenes. In: Proceedings of the International Conference on Collaborative Computing: Networking, Applications and Worksharing. Shanghai, China: 2020. 268−282
    [5] He M X, Hao P. Robust automatic recognition of Chinese license plates in natural scenes. IEEE Access, 2020, 8: 173804-173814 doi: 10.1109/ACCESS.2020.3026181
    [6] Lee C Y, Osindero S. Recursive recurrent nets with attention modeling for ocr in the wild. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 2231−2239
    [7] Cheng Z Z, Bai F, Xu Y L, Zheng G, Pu S L, Zhou S G. Focusing attention: Towards accurate text recognition in natural images. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 5086−5094
    [8] Zou Y J, Zhang Y J, Yan J, Jiang X X, Huang T J, Fan H S, et al. A robust license plate recognition model based on bi-LSTM. IEEE Access, 2020, 8: 211630-211641 doi: 10.1109/ACCESS.2020.3040238
    [9] Qin S X, Liu S J. Efficient and unified license plate recognition via lightweight deep neural network. IET Image Processing, 2020, 14(16): 4102-4109 doi: 10.1049/iet-ipr.2020.1130
    [10] Guo J M, Liu Y F. License plate localization and character segmentation with feedback self-learning and hybrid binarization techniques. IEEE Transactions on Vehicular Technology, 2008, 57(3): 1417-1424 doi: 10.1109/TVT.2007.909284
    [11] Silva S M, Jung C R. License plate detection and recognition in unconstrained scenarios. In: Proceedings of the European Conference on Computer Vision. Munich, Germany: 2018. 580−596
    [12] Gou C, Wang K F, Yao Y J, Li Z X. Vehicle license plate recognition based on extremal regions and restricted boltzmann machines. IEEE Transactions on Intelligent Transportation Systems, 2016, 17(4): 1096-1107 doi: 10.1109/TITS.2015.2496545
    [13] Park S H, Yu S B, Kim J, Yoon H. An all-in-one vehicle type and license plate recognition system using yolov4. Sensors, 2022, 22(3): 921-939 doi: 10.3390/s22030921
    [14] Wang D, Tian Y M, Geng W H, Zhao L, Gong C. LPR-Net: Recognizing Chinese license plate in complex environments. Pattern Recognition Letters, 2020, 130: 148-156 doi: 10.1016/j.patrec.2018.09.026
    [15] Luo C J, Jin L W, Sun Z H. Moran: A multi-object rectified attention network for scene text recognition. Pattern Recognition, 2019, 90: 109-118 doi: 10.1016/j.patcog.2019.01.020
    [16] Jaderberg M, Simonyan K, Zisserman A, Kavukcuoglu K. Spatial transformer networks. In: Proceedings of the Annual Conference on Neural Information Processing Systems. Montreal, Can-ada: 2015. 2017−2025
    [17] 周晓君, 高媛, 李超杰, 阳春华. 基于多目标优化多任务学习的端到端车牌识别方法. 控制理论与应用, 2021, 38(5): 676−688

    Zhou Xiao-Jun, Gao Yuan, Li Chao-Jie, Yang Chun-Hua. Multi-objective optimization based multi-task learning for end-to-end car license plates recognition. Control Theory and Applications. 2021, 38(5): 676−688
    [18] Li H, Wang P, Shen C H, Zhang G Y. Show, attend and read: A simple and strong baseline for irregular text recognition. In: Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Honolulu, USA: 2019. 8610−8617
    [19] Xu H, Guo Z H, Wang D H, Zhou X D, Shi Y. 2D license plate recognition based on automatic perspective rectification. In: Proceedings of the 25th International Conference on Pattern Recognition. Milan, Italy: IEEE, 2021. 202−208
    [20] Zhang L J, Wang P, Li H, Li Z, Shen C H. A robust attentional framework for license plate recognition in the wild. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(11): 6967-6976 doi: 10.1109/TITS.2020.3000072
    [21] Hu W Y, Cai X C, Hou J, Yi S, Lin Z P. GTC: Guided training of ctc towards efficient and accurate scene text recognition. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: 2020. 11005−11012
    [22] Yan R J, Peng L R, Xiao S Y, Yao G. Primitive representation learning for scene text recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021. 284−293
    [23] Wang T W, Zhu Y Z, Jin L W, Luo C J, Chen X X, Wu Y Q, et al. Decoupled attention network for text recognition. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 12216−12224
    [24] Chollet F. Xception: Deep learning with depthwise separable convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 1251−1258
    [25] Shi B G, Yang M K, Wang X G, Lyu P Y, Yao C, Bai X. Aster: An attentional scene text recognizer with flexible rectification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(9): 2035-2048
    [26] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation. In: Proceedings of the International Conference on Medical Image Computing and Computer-assisted Intervention. Munich, Germany: 2015. 234− 241
    [27] Xu Z B, Yang W, Meng A J, Lu N X, Huang H, Ying C C, et al. Towards end-to-end license plate detection and recognition: A large dataset and baseline. In: Proceedings of the European Conference on Computer Vision. Munich, Germany: 2018. 255− 271
    [28] Zhao Y T, Yu Z, Li X Y. Evaluation methodology for license plate recognition systems and experimental results. IET Intelligent Transport Systems, 2018, 12(5): 375-385 doi: 10.1049/iet-its.2017.0138
    [29] Sun M, Zhou F, Yang C, Yin X C. Image generation framework for unbalanced license plate data Set. In: Proceedings of the International Conference on Data Mining Workshops. Beijing, China: IEEE, 2019. 883−889
    [30] Han B G, Lee J T, Lim K T, Choi D H. License plate image generation using generative adversarial networks for end-to-end license plate character recognition from a small set of real images. Applied Sciences, 2020, 10(8): 2780-2796 doi: 10.3390/app10082780
    [31] Sun Y F, Liu Q, Chen S L, Zhou F, Yin X C. Robust Chinese license plate generation via foreground text and background separation. In: Proceedings of the 11th International Conference on Image and Graphics. Haikou, China: 2021. 290−302
    [32] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B. Generative adversarial nets. In: Proceedings of the Advances in Neural Information Processing Systems. Montreal, Canada: 2014. 2672− 1680
    [33] Qin S X, Liu S J. Towards end-to-end car license plate location and recognition in unconstrained scenarios. Neural Computing and Applications, to be published
    [34] Qiao L, Chen Y, Cheng Z Z, Xu Y L, Niu Y, Pu S L, et al. Mango: A mask attention guided one-stage scene text spotter. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. Virtual Event: 2021. 2467−2476
    [35] Liu Q, Chen S L, Li Z J, Yang C, Chen F, Yin X C. Fast recognition for multidirectional and multi-type license plates with 2D spatial attention. In: Proceedings of the 16th International Conference on Document Analysis and Recognition. Lausanne, Swi-tzerland: 2021. 125−139
  • 期刊类型引用(1)

    1. 唐力,赵志宇,张建文,李标奇,徐敏. 结合非负矩阵分解和流形学习的大数据聚类方法研究. 制造业自动化. 2024(09): 170-178+220 . 百度学术

    其他类型引用(10)

  • 加载中
图(10) / 表(9)
计量
  • 文章访问数:  983
  • HTML全文浏览量:  311
  • PDF下载量:  266
  • 被引次数: 11
出版历程
  • 收稿日期:  2021-12-20
  • 录用日期:  2022-04-07
  • 网络出版日期:  2022-05-06
  • 刊出日期:  2023-01-07

目录

/

返回文章
返回