Adaptive Predictive Proportional-integral-resonant Current Control for Permanent Magnet Synchronous Motors
-
摘要: 考虑数字控制系统一个采样周期输入延时和驱动器功率管非线性特性的影响,为增强永磁同步电机(Permanent magnet synchronous motor,PMSM)电流环稳定性和提高电流控制精度,提出一种自适应预测比例-积分-谐振控制(Adaptive predictive proportional-integral-resonant,APPI-RES)策略.该方法能够在电机电阻和电感参数不确定的条件下,预测电流控制误差和未知周期电压扰动,将所得预测量执行反馈控制,实现了对系统输入延时和相电流谐波的有效补偿.最后,通过仿真分析验证了所提控制策略的有效性.
-
关键词:
- 永磁同步电机 /
- 自适应预测比例-积分-谐振控制器 /
- 输入延时 /
- 参数不确定 /
- 相电流畸变
Abstract: In order to enhance the stability of current loop and to improve the current control accuracy, an adaptive predictive proportional-integral-resonant (APPI-RES) current control strategy is proposed, in which the one cycle delay of digital control system and the nonlinear characteristic of voltage source inverter (VSI) are considered. The proposed method can predict the control errors of currents, unknown constant and periodic voltage disturbances when the resistor and inductance of the motor are unknown. Then, the predicted variables are used to execute the feedback control to compensate the system input delay and the phase current harmonics effectively. At last, simulation results verify the feasibility of the control strategy. -
笔迹鉴别(Writer identification)是通过手写文字信息来鉴别书写人身份的一种文件检验技术.它作为机器视觉与模式识别领域的研究热点之一, 与人脸识别、语音识别、指纹识别等技术一样属于身份识别的研究范畴, 在最近几十年受到广泛关注.它在司法鉴定与历史文档分析[1-2]方面发挥着重要作用.其中, ICDAR与ICFHR会议以及他们组织的比赛一直在为这个研究方向的发展起着突出的推进作用[3-5].笔迹鉴别任务可分为笔迹识别与笔迹检索两个任务.笔迹识别是通过对比存储在数据库中的笔迹文档(已知书写者)来确定待识别文档属于哪一个书写者所写, 与说话人识别, 特定人脸识别等任务一致; 笔迹检索是通过度量笔迹材料的全局特征向量的相似度检索出查询库中与待查询的笔迹材料最相似的笔迹材料.依据笔迹材料的获取形式可将笔迹鉴别分为两种, 分别为在线笔迹鉴别与离线笔迹鉴别.在线笔迹鉴别可通过在线采集书写的速度、角度、书写者所使用的力量以及写字的笔画顺序等丰富信息进行笔迹鉴别.离线笔迹鉴别材料使用传统的书写工具在纸张上书写笔迹信息, 再通过照相机或扫描仪采集为图片的形式.由于离线笔迹材料的通用性与易获取性, 故其实用性较高, 然而离线笔迹材料包含的信息不如在线笔迹材料丰富, 故其鉴别难度更大.本文研究的对象即为离线笔迹鉴别.
离线笔迹鉴别受多种因素的影响, 例如, 1)随着书写人年龄的增长, 其书写方式可能会有一定的变化; 2)同一个书写人的材料可能来源于不同笔的使用; 3)书写者的现实物理环境的变化会影响书写者的书写习惯; 4)每个书写者的笔迹材料数量与笔迹信息都非常有限.这对于机器学习方法建模离线笔迹鉴别任务是很大的挑战, 特别是对于深度卷积神经网络(Convolutional neural network, CNN)方法, 如何利用这有限的数据训练一个可靠的神经网络模型是巨大难题.对于笔迹鉴别存在的这些挑战, 早期的研究者们通常构造有效的手工特征方法对笔迹方向的角度、笔画的宽度等手写信息进行建模, 如用Gabor滤波器[6]与局部二值模式(Local binary patterns, LBP)[7]提取笔迹材料的纹理特征和基于文字的柱状图特征; 近期的研究者们充分利用卷积神经网络(CNN)的优势来自动提取特征[8-15], 不断地提高在一些标准数据集上的评测结果, 使得笔迹鉴别提升到新的台阶.
当前的离线笔迹鉴别方法可归为两类:基于局部特征提取方法与基于全局特征提取方法.基于局部特征提取方法[8-12, 16-17]是对笔迹材料的局部结构、梯度、轮廓、几何特征等进行特征描述, 并通过编码方式将局部特征编码为全局特征.基于全局特征提取方法[7, 18-22]直接对原始的笔迹材料进行全局的特征提取, 然后将提取的全局特征作为鉴别的依据.当然, 也有研究者将局部特征与全局特征组合起来构建更为强大的特征以提高鉴别效果[23].由于局部特征方法能有效地解决小样本问题, 提高算法对笔迹材料的局部信息的特征提取, 所以近几年来, 基于局部特征提取方法得到更大地重视, 而本文的方法亦是基于局部特征提取方法.局部特征提取方法的关键步骤有如下几步: 1)将原始笔迹材料分成小的像素块; 2)对这些小的像素块进行特征提取; 3)通过全局编码方法将局部特征编码为全局特征向量.其中前两个过程是最为根本的两个步骤, 它体现了整体模型的泛化能力. Christlein等[24]探讨了编码方式对笔迹鉴别的影响, 同时强调了前两个基本步骤的重要意义.
当前大部分的局部特征提取方法都是依赖于尺度不变特征变换(Scale-invariant feature transform, SIFT)[11-12, 24]、加速鲁棒性特征(Speed up robust features, SURF)等方法来提取局部像素块, 但是此方法需要组合编码能力强的编码方式(Fisher vectors, Vector of locally aggregated descriptors (VLAD)[12], Gaussian mixture model (GMM)[11]等)才能取得较好的鉴别结果。而另外的一种是基于文档行分割的方式将原始笔迹材料分割成小的像素块[8, 10]. Fiel等[8]首次提出了基于行分割的方式并组合caffenet提取局部特征, 随后通过取均值的编码方式将每张笔迹材料的局部特征编码为全局特征, 在ICDAR2011[25]和CVL[26]标准数据集上取得当时最好的结果.他使用Deim等[27]提出的行分割方法对笔迹材料进行分割, 用归一化方法纠正歪斜的行文本, 并进行数据增强.由于此模型使用的行切割方法对笔迹粘连或笔迹位于上下两行中间位置的笔迹材料切割的不准确性, 以及8层架构的caffenet的特征学习能力不强等问题, 在ICADRAR2013[3]这一多语言的高挑战性数据集上的表现并不理想. Xing等[10]提出基于新的像素扫描策略与数据增强并组合多流并行CNN的方法, 在IAM[28]和HWDB[29]两个标准数据集上用少量的笔迹信息分别取得99.01 %和97.03 %的识别率[10].
虽然当前基于局部特征提取的离线笔迹鉴别方法取得很好的成果, 但它们在笔迹检索任务中还过度依赖于数据增强和编码方式, 在笔迹识别任务中需要较多的笔迹信息方可取得较高的识别率.主要由以下两个原因造成: 1)当前基于局部特征提取的离线笔迹鉴别方法的数据预处理提取的小像素块不准确, 使得很多完整的笔迹信息被错误分割; 2)当前基于局部特征提取的离线笔迹鉴别方法的识别模型的表征能力不足, 使得学习的特征还不能充分适应笔迹识别任务.这两个因素直接导致了模型提取的局部特征的鲁棒性和泛化能力差.
为解决以上问题, 并且鉴于图像分割方法准确性[27, 30-32]和CNN在笔迹鉴别领域的成功应用, 我们提出了一种基于统计的文档行分割与深度卷积神经网络方法(Document line segmentation-convolutional neural network, DLS-CNN).利用基于统计的文档行分割方法分割的准确性以及深度神经网络的强学习能力, 学习具有强鲁棒性的局部特征, 使得模型在笔迹检索任务中无需依赖于数据增强并通过取均值的编码方式就能够取得不错的鉴别效果, 在笔迹识别中仅需要少量的笔迹信息即可对笔迹进行较好地识别.在ICDAR2013[3]与CVL[26]两个标准数据集上实验结果表明: 1) DLS-CNN相较于其他相似方法提取的局部特征具有更强的鲁棒性; 2) DLS-CNN只需要极少的笔迹信息就能对笔迹进行较好的识别, 模型具有较强的泛化能力.
本文第1节对我们提出的方法进行详细的描述; 第2节给出在两个标准数据集上的实验结果与分析; 最后, 第3节对本文进行总结与展望.
1. 基于文档行分割与卷积神经网络的局部特征提取方法(DLS-CNN)
DLS-CNN (Document line segmentation-convolutional neural network)通过基于统计的文档行分割与深度卷积神经网络的方法提取更具有鲁棒性的局部特征, 以提高笔迹鉴别模型的鉴别能力和泛化能力, 模型的整体结构如图 1所示, 具体步骤如下: 1)用基于统计的文档行分割方法将原始笔迹材料进行文档行分割; 2)通过滑动窗口法将所有的行无重叠地切割成所需要尺度的小像素块; 3)用修改和优化过的残差神经网络(ResNet-50)对这些准备好的小像素块进行训练; 4)用训练好的模型对测试数据进行局部特征提取; 5)将对应笔迹材料的所有局部特征取均值并计算余弦相似度作为后续检索评估的依据.其中, 笔迹的识别只需要前3个步骤, 笔迹检索为DLS-CNN的整个过程.
1.1 基于统计的文档行分割方法
基于统计的文档行分割方法先由Arivazhagan等[30]提出解决文档行分割的问题.此方法最大的优点就是对于行倾斜的文档亦能准确地将文档按行进行切割.但是此方法有两个缺点:第一, 当文档的笔迹分布于纸张的右侧时, 由于此算法找不到候选分割行而无法实现行分割; 第二, 当文档的上下行有较多的笔迹粘连或笔迹位于上下两行中间位置时, 由于笔迹成分确定算法的时间复杂度高, 使得其需要较长的时间来确定笔迹成分的归属.为此, 我们对此方法做进一步的改进, 在保证算法准确进行行分割的同时拟解决以上两个问题.基于统计的文档行分割方法包括如下几个过程. 1)通过OTSU阀值法将图像二值化并获取文档笔迹轮廓投影映射; 2)依据一张文档垂直方向投影映射的柱状图和自适应阀值的左右相邻柱状图低谷连接获取候选行; 3)用二元混合高斯密度法将文档上下行成分进行确定; 4)最后获取笔迹材料的行.此算法的核心部分为步骤2)和3).步骤2)的关键是设计有效的函数寻找投影映射的柱状图低谷与高峰, 本文将垂直方向的投影映射的柱状图分为20块.步骤3)使用二元混合高斯模型对文档上下行有粘连笔迹或笔迹位于上下两行中间的成分进行确定, 这有助于将文档进行更加准确的文档行分割.以下将详细描述如何通过二元混合高斯密度法对文档行成分进行建模.我们使用前景像素的$ {x, y} $坐标获取行成分的充分统计量$ {\pmb \mu}_A $, $ {\pmb \mu}_B $, $ \Sigma_A $, $ \Sigma_B $(分别表示$ A $, $ B $行的像素成分的均值向量与协方差矩阵)进行二元混合高斯密度建模.计算$ A $行的第$ N+1 $个像素时, $ A $行像素成分的均值向量如式(1)所示:
$$ \begin{equation} {\pmb \mu}_{A(N+1)} = \frac{N-1}{N}\cdot{\pmb \mu}_{A(N)}+\frac{1}{N}\cdot p_{N+1} \end{equation} $$ (1) 其中, $ N $为当前已经计算过的成分数量, $ p_{(N+1)} = \{x_{N+1}, y_{N+1}\} $为第$ N+1 $个像素.计算$ A $行的第$ N+1 $个像素时, $ A $行像素成分的协方差矩阵如式(2)所示:
$$ \begin{align} \Sigma_{A(N+1)} = &\frac{N-1}{N}\cdot \Sigma_{A(N)}+\frac{1}{N}\cdot\\ & (p_{N+1}-{\pmb \mu}_{A(N+1)}) (p_{N+1}-{\pmb \mu}_{A(N+1)})^{\rm T} \end{align} $$ (2) 因此, $ A $行的第$ i $个像素成分的二元高斯密度如式(3)所示:
$$ \begin{equation} P(p_i|{\pmb \mu}_A, \Sigma_A) = |2 \pi \Sigma_A|^{\frac{1}{2}}(p_i-{\pmb \mu}_A) \Sigma_A^{-1}(p_i-{\pmb \mu}_A)^{\rm T} \end{equation} $$ (3) 最后, $ A $行的像素成分概率如式(4)所示:
$$ \begin{align} &P(C|{\pmb \mu}_A, \Sigma_A) = P(p_1|{\pmb \mu}_A, \Sigma_A)\cdot P(p_2| {\pmb \mu}_A, \Sigma_A, p_1) \\ &\qquad \cdots P(p_N| {\pmb \mu}_A, \Sigma_A, p1, p2, \cdots, p_{N-1}) \end{align} $$ (4) 同理, $ B $行的像素成分概率与$ A $行的计算方式相似.最终我们依据上下两行的像素成分概率来确定像素属于哪一行的成分. ICDAR2013的$ 029\_1 $和$ 002\_4 $样本的文档行分割结果如图 2所示, 图 2 (a)为模型最终确定的两个样本文档行分割的结果, 图 2 (b)为样本$ 029\_1 $被分割后形成的行笔迹材料.
1.2 基于滑动窗口法的像素切割
在完成笔迹材料的行切割之后, 将所有的行笔迹归一化, 然后做进一步的切割.使用滑动窗口法, 依据所需要的尺度(图像宽度像素值)进行无重叠地切割.由于尺度为64像素与256像素提取的像素块保留更完整的"字母"级与"单词"级笔迹, 所以实验中分别用到的尺度为64像素尺度与256像素尺度.对于64尺度切割的像素块, 进一步用空白像素填充法将其扩充为256 $ \times $ 256大小的像素块, 而对于256尺度切割的像素块, 则无需做进一步处理, 因为后续的特征提取网络的输入尺度为224 $ \times $ 224.最后再剔除对模型特征提取产生噪声的空白像素块和含笔迹信息较少的像素块(如只有一个点).最终处理好的像素块如图 3 (b)和图 3 (c)所示, 图 3 (b)为64尺度切割的像素块, 图 3 (c)为256尺度切割的像素块.对比其他用于笔迹鉴别的方法[11]提取的小像素块, 当上下行笔迹粘连或笔迹位于上下两行中间位置时(如笔迹中含有字母$ g, y, f $等字母), 传统方法则不能较好的分割, 使得很多完整笔迹成分被错误分割, 如图 3 (a)所示.
1.3 深度残差神经网络(ResNet)
深度残差神经网络(ResNet)由He等[33]提出, 他们将网络引入残差学习单元保护了输入信息的完整性, 使得随着网络的加深模型不会出现退化的现象, 而是进一步提升学习能力.他们在ILSVRC和COCO2015比赛中的目标定位、分割、识别、探测任务中均取得第一名的优异成绩.随后, 他们进一步探索深度残差神经网络的学习能力, 并通过实验表明残差神经网络是当前特征学习能力最强的网络模型[34]. Christlein等[24]也通过实验表明残差神经网络在笔迹鉴别任务中比其他网络具有更强的表征能力.为此, 在此模型中采用ResNet学习局部特征.为了平衡时间复杂度、资源消耗与学习效率, 我们使用ResNet-50这个模型框架.由于笔迹识别任务的特殊性, 将ResNet-50做了相应的优化和改进, 其结构组成如表 1所示.为了获取更具全局性与鲁棒性的局部特征, 我们将原始的平均池化层改为全局池化层.此外, 由于训练集相对较小与网络较深的原因, 我们在全连接层后面添加了relu激活特征层与dropout层, 并将dropout率设置为0.5, 以增强模型的正则化, 防止过拟合.在笔迹检索任务中, 学习率初始设置为0.1, 并在训练30步后将其降为0.01;在笔迹识别任务中, 学习率初始设置为0.1, 训练20步之后将其缩小为0.02, 在训练30步之后, 进一步将其缩小为0.01.模型的输入图像大小为224 $ \times $ 224, 梯度下降的动量因子设置为0.9, softmax层的大小设置应根据任务(笔迹识别、笔迹检索)与数据集而定.我们在ICDAR2013数据集上做笔迹检索任务时, 将其大小设置为100;而在CVL数据集上做笔迹识别任务时, 我们将其大小设置为310.
表 1 ResNet-50结构Table 1 The structure of ResNet-50Layer name Layers Output size Conv1 7 $\times$ 7, 64, Stride 2 112 $\times$ 112 Conv2-x1 3 $\times$ 3 Max pool, Stride 2 56 $\times$ 56 Conv2-x2 $\left[\begin{array}{c} 1 \times 1, 64\\ 3 \times 3, 64 \\ 1 \times 1, 256\end{array}\right] \times 3$ 56 $\times$ 56 Conv3-x $\left[\begin{array}{c} 1 \times 1, 128 \\ 3 \times 3, 128 \\ 1 \times 1, 512\end{array}\right] \times 4$ 28 $\times$ 28 Conv4-x $\left[\begin{array}{c} 1 \times 1, 256 \\ 3 \times 3, 256 \\ 1 \times 1, 1 024 \end{array}\right] \times 6$ 14 $\times$ 14 Conv5-x $\left[\begin{array}{c} 1 \times 1, 512 \\ 3 \times 3, 512 \\ 1 \times 1, 2 048 \end{array}\right] \times 3$ 7 $\times$ 7 Global average pool 1 $\times$ 1 Fc, Relu, Dropout, Softmax 1 $\times$ 1 1.4 局部特征提取
对于笔迹检索任务, 需将测试集中的小像素块进行局部特征提取.本文分别对全局池化层与全连接层的特征进行了不同特征数(128, 512, 1 024, 2 048)的提取, 以寻找模型最佳局部特征.在特征提取过程中, 残差神经网络的最后一层可以舍弃.随后, 将提取的局部特征进行PCA白化处理, 以降低特征维度和降解特征间的相互关系.这个白化操作被证明在笔迹与图像检索中具有积极作用[35-36].
1.5 特征编码与相似度计算
特征编码作为基于局部特征提取的笔迹检索中必不可少的一步, 对笔迹检索的提升具有重大意义. Christlein等[24]通过实验表明编码能有效促进笔迹检索效果, 并且编码方式有优劣之分.当前应用于笔迹鉴别的编码方式有很多, 如取均值法[8]、Fisher Vectors编码法[37]、GMM编码法[11, 38]、VLAD编码法[12, 24]等, 其中后三种编码方式是最有效的编码方式, 这几种编码方式充分利用局部特征的相关信息对笔迹检索效果的促进作用较大.而取均值法由于信息损失过多, 使得其编码效果得不到较好的提升.但本文为了验证DLS-CNN模型的学习能力与检验提取的局部特征的鲁棒性, 并与Fiel等[8]提出的模型进行有效对比, DLS-CNN型采用和Fiel等[8]一致的取均值的编码方式.这种取均值的方式是将一份原始笔迹材料的所有小像素块的特征向量的均值作为这份原始笔迹材料的全局特征.因此第$ j $份原始笔迹材料的全局特征$ {\pmb V}_j $为:
$$ \begin{equation} {\pmb V}_j = \frac{1}{N} \sum \limits_{i = 1}^{N}{\pmb x}_i^{(j)} \end{equation} $$ (5) 其中, $ N $为第$ j $份原始笔迹材料的小像素块数量, $ {\pmb x}_i^{(j)} $为第$ j $份原始笔迹材料的第$ i $个小像素块的特征向量.因为当模型使用信息损失较大的编码方式都能取得较好的效果时, 说明该模型学习的局部特征具有更强鲁棒性与泛化能力.随后, 将编码好的全局特征求取待查询笔迹文档的余弦相似度作为检索标准.
2. 实验结果与分析
由于ICDAR2013[3]和CVL[26]这两个具有挑战性的多语言标准数据集都是近些年笔迹鉴别研究使用最多的数据集之一, 故我们同时使用这两个标准数据集评估DLS-CNN提取特征的强鲁棒性和模型的学习能力.其中, 我们在ICDAR2013数据集上做笔迹检索任务, 在CVL数据集上做笔迹识别任务.
2.1 评估标准
为评估模型的鲁棒性与泛化能力, 我们使用平均准确率均值(Mean average precision, mAP)、Soft top-$ k $、Hard top-$ k $三个评估标准用于笔迹检索任务中, 这几个评估标准是广泛应用于信息检索任务的标准.我们使用Top-$ k $评估标准用于笔迹识别任务中.
平均准确率均值: mAP是平均准确率的均值, 其是反映模型在所有相关文档上的性能指标.假设我们有$ N $个待查询笔迹材料, 则第$ i $个查询笔迹材料的平均准确率$ AP(i) $为:
$$ \begin{equation} AP_{(i)} = \frac{\sum \limits_{k = 1}^{M}P(k)\cdot rel(k)}{R} \end{equation} $$ (6) 其中, $ M $表示查询库(待查询笔迹材料库)中的笔迹材料数量, 此论文中, 我们将数据集ICDAR2013的测试集作为一个查询库. $ R $表示查询库中与第个查询笔迹材料相关(同一笔迹)的文档总数. $ P(k) $表示查询结果中前$ k $个结果的准确率, 即前$ k $个查询结果中出现相关笔迹材料的个数与$ k $的比值. $ rel(k) $是一个指示函数, 如果第$ k $个查询结果是相关文档, 则其值为1, 否则为0.从而mAP定义为:
$$ \begin{equation} {\rm mAP}\; = \; \frac{1}{N} \sum \limits_{i = 1}^{N}AP(i) \end{equation} $$ (7) Soft top-$ {\pmb k } $ 与Hard top-$ {\pmb k} $: Soft top-$ k $ (S-$ k $)的评估方法与累计匹配特性值(Cumulative matching characteristic, CMC)等价, 其表征模型在单个相关文档上的性能指标.当每次查询的前$ k $个查询结果含有一个(及以上)相关文档时, 我们将其定义为一次正确查询, Soft top-$ k $表示为所有正确查询的次数与总查询次数的百分比.而在Hard top-$ k $ (H-$ k $)评估标准中, 当返回的前$ k $个查询结果全是相关文档时, 我们将其定义为一次正确查询, Hard top-$ k $表示为正确的查询次数与总查询次数的百分比, 其刻画模型在多个相关文档上的性能指标.很明显, Soft top-$ k $随着$ k $的值增加而升高, Hard top-$ k $随着$ k $的值增加而降低.
Top-$ {\pmb k} $: Top-$ k $评估指标用于笔迹识别任务, 与Soft top-$ k $评估指标意义一致, 都是反应模型在单个相关文档上的性能指标.当每次识别的前$ k $个最相似的类中含有与目标类一致的类, 我们将其定义为一次正确识别, 则Top-$ k $表示为所有正确识别的次数与总识别次数的百分比.
2.2 ICDAR2013数据集
ICDAR2013[3]标准数据集的训练集和测试集分别包含了100和250个书写者的笔迹材料, 每个书写者贡献4张笔迹材料, 其中2张的笔迹内容为英语, 另外两张为希腊语.由于混合语言, 这个数据集的笔迹识别具有较大的挑战.对数据集分别进行64与256尺度的像素切割之后, 64尺度切割的小像素块数量为:训练集70 911个, 测试集218 999个; 256尺度切割的小像素块数量为:训练集21 160个, 测试集64 820个.我们分别对这两个尺度切割的数据进行了实验, 结果如表 2所示.结果显示:基于词级别大小数据提取的特征比基于字母级别大小数据提取的特征, 在所有的指标上均取得更好的表现, 表明基于词级别大小的数据更适合于DLS-CNN, 因为基于词级别大小的数据包含更多的完整笔迹.并且, 256尺度切割的像素块比64尺度切割的像素块少, 使得模型在256尺度的数据上进行实验的运行时间相对较短.为此, 接下来的所有实验均基于256尺度切割的数据.
表 2 不同像素块大小的对比(%)Table 2 Comparison of different patch sizes (%)S-1 S-5 S-10 H-2 H-3 mAP 64尺度 87.8 94.7 97.0 57.3 36.7 76.5 256尺度 $\textbf{95.0}$ $\textbf{98.4}$ $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$ 此外, 我们探讨了不同特征层提取特征的表现能力.在实验中分别提取了全局池化层与全连接层的特征作为局部特征, 实验结果如表 3所示.结果显示:全连接层提取的特征仅Soft top-1指标比全局池化层提取的特征表现差, 在其他的指标中都有更加优异的表现.这主要归因于: 1)全连接层提取的特征对前面层的特征进一步的抽象成为高阶的描述特征, 更能全局地描述输入图像的特点; 2)分类层以全连接层的特征作为分类的依据, 分类层所产生的损失将直接作用于全连接层, 使得全连接层更能体现分类信息.在此基础上, 我们对提取的特征数做了进一步的探讨, 分别对128, 512, 1 024, 2 048个特征数目进行了实验.实验表明, 当取512个特征数时, 模型具有更好的表现, 并且模型所需的训练时间与检索时间也相对较短, 结果如表 4所示.
表 3 不同特征层的对比(%)Table 3 Comparison of different feature layers (%)S-1 S-5 S-10 H-2 H-3 mAP 全局池化层 $\textbf{95.4}$ 97.9 98.5 63.1 41.2 79.7 全连接层 95.0 $\textbf{98.4}$ $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$ 表 4 特征数目的对比(%)Table 4 Comparison of feature numbers (%)S-1 S-5 S-10 H-2 H-3 mAP 128 95.2 $\textbf{98.7}$ 99.0 70.1 48.6 84.3 512 95.0 98.4 $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$ 1 024 95.0 98.4 99.0 70.0 48.8 84.1 2 048 $\textbf{96.0}$ 98.4 98.6 67.1 45.8 83.0 在DLS-CNN模型中, 主成分分析也对模型产生了积极作用, 我们将提取95 PCA白化不仅提高模型的泛化能力, 而且还通过压缩特征节约了笔迹检索时间, 结果如表 5所示.
表 5 PCA白化的评估(%)Table 5 Evaluation of PCA$\_$Whitening (%)S-1 S-5 S-10 H-2 H-3 mAP 无PCA白化 88.9 97.1 98.0 63.9 47.6 82.1 有PCA白化 $\textbf{95.0}$ $\textbf{98.4}$ $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$ 最后, 也将DLS-CNN与其他当前表现较好的相似模型进行对比.特别是与Fiel等[8]提出的模型对比, 因为DLS-CNN的处理过程与Fiel等提出的模型最为相似.由于Fiel等提出的方法对于上下行粘连的笔迹和位于上下行中间的笔迹不能正确分割, 使得其在更具挑战性的ICDAR2013数据集上的鉴别表现不佳.实验结果显示, 我们提出的模型在大部分的评估指标都取得明显更优的表现, 并且在Hard top-2与Hard top-3上分别有29.8说明DLS-CNN弥补了基于行分割与CNN模型的不足.此外, DLS-CNN模型与Christlein等[24]提出的模型在同样使用取均值编码的情况下进行对比, DLS-CNN在Soft top-1与mAP两个评估指标上分别提升了8.2表明基于统计的文档行分割与深度卷积神经网络的笔迹鉴别方法的模型能学得更具鲁棒性的特征, 具有更强的泛化能力.但是我们提出的方法在Soft top-$ k $的指标上并没有取得更加优异的表现.我们通过进一步实验找出那些未能正确查询的笔迹材料, 发现我们的方法对粗笔所写的笔迹材料识别效果差.细笔/粗笔像素块的样例如图 3 (c)所示.可能原因有以下两个: 1)由于数据集中粗笔写的笔迹材料极少, 导致模型不能较好地学习粗笔所写笔迹材料的相应特征; 2)由于粗笔所写笔迹材料不能较好地被正确分割, 使得所获取的像素块不能保留更多完整的笔迹信息.具体实验对比如表 6所示.
表 6 与其他模型的对比(%)Table 6 Comparison with other models (%)S-1 S-5 S-10 H-2 H-3 mAP CS-UMD-a[3] 95.1 98.6 99.1 19.6 7.1 N/A CS-UMD-b[3] 95.0 98.6 99.2 20.2 8.4 N/A HIT-ICG[3] 94.8 98.0 98.3 63.2 36.5 N/A TEBESSA-a[3] 90.3 96.7 98.3 58.2 33.2 N/A TEBESSA-b[3] 93.4 97.8 98.5 62.6 36.5 N/A Christlein[11] 97.1 98.8 99.1 42.8 23.8 67.7 Wu[9] 95.6 98.6 99.1 63.8 36.5 N/A Nicolaou[14] $\textbf{97.2}$ $\textbf{98.9}$ 99.2 52.9 29.2 N/A Fiel[8] 88.5 96.0 98.3 40.5 15.8 N/A Christlein[24] 86.8 N/A N/A N/A N/A 78.9 DLS-CNN 95.0 98.4 $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$ 2.3 CVL数据集
CVL[26]数据集的训练集与测试集分别包含27与283个书写者, 在训练集与测试集中每个书写者分别贡献7份与5份笔迹材料, 每个书写者写一份德语笔迹材料, 其他均为英语笔迹材料.在实验中, 在训练集中每个作者取5份与测试集笔迹材料内容相同的笔迹材料.最终将310位书写者贡献的1 550份笔迹材料用256尺度分割成153 315个小的像素块, 并按8:1:1的比例分为训练集、验证集和测试集.在此数据集上, 为了检验模型在笔迹识别任务的鲁棒性与泛化能力, 我们直接对256尺度大小的小像素块进行训练与测试.
实验结果如图 4所示.当训练步数达到35步之后, DLS-CNN的识别率基本稳定, Top-1的最高识别率为95.8由于前20步的学习率较大, 使得模型不易收敛并且未找到较好的局部最优点, 在20步后将学习率缩小5倍, 模型相对比较稳定, 在30步之后进一步将学习率缩小2倍, 模型慢慢收敛并趋于稳定.具体结果如图 4所示, 图 4 (a)表示Top-1的识别率, 图 4 (b)表示Top-5的识别率.与当前在CVL数据集获得识别率效果最好的算法的相比, DLS-CNN仅以一个256尺度大小的像素块在Top-5的识别率相较于其他基于1整张笔迹材料的Top-5识别率从99.8取得当前最高的识别率, 如表 7所示.但我们的方法在Top-1评估指标上的表现不理想, 原因在于我们的方法对粗笔所写的笔迹材料不能提取比较有效的特征对其进行更好地识别.实验表明, DLS-CNN能够以很少量的笔迹信息对笔迹进行较准确地识别, 体现了DLS-CNN能在笔迹识别任务中具有较强的鲁棒性与泛化能力.
3. 总结与展望
本文提出了一种基于统计的文档行分割与深度卷积神经网络结合的离线笔迹鉴别方法, 以学习具有强鲁棒性的局部特征和较强泛化能力的模型为目标, 解决了其他基于局部特征的笔迹鉴别方法提取的局部特征过度依赖数据增强与全局编码的问题和模型泛化能力不足的问题.这得益于基于统计的文档行分割方法进行文档行分割的准确性, 以及改进的残差神经网络强学习能力的优越性.在ICDAR2013与CVL两个含多语言的标准数据集上的实验结果表明了DLS-CNN是一种具有强鲁棒性的离线笔迹鉴别方法.
在未来的工作中, 基于统计的文档行分割方法可以做进一步的改进, 通过更有效的方法对柱状图低谷和高峰进行更准确的确定, 使得模型在初始行的寻找更加准确, 从而得到更加精确的行分割.在实验中发现该模型对于粗笔写的笔迹材料不能较好的鉴别, 致使我们提出的方法不能在Soft top-$ k $指标上取得较好的表现, 我们将对此问题做更进一步的研究.此外, 寻求一种合适的正则化方法对CNN模型进行正则化, 防止模型的过拟合且使模型更加稳定, 并在多个包含其他语言(中文、拉丁文、法语等)的数据集上对模型做进一步的验证.
-
-
[1] Chou M C, Liaw C M. Dynamic control and diagnostic friction estimation for an SPMSM-driven satellite reaction wheel. IEEE Transactions on Industrial Electronics, 2011, 42(10):4693-4707 http://ieeexplore.ieee.org/document/5699362/ [2] Abdel-Rady Y, Mohamed I. A newly designed instantaneous-torque control of direct-drive PMSM servo actuator with improved torque estimation and control characteristics. IEEE Transactions on Industrial Electronics, 2007, 54(5):2864-2873 doi: 10.1109/TIE.2007.901356 [3] EL-Refaie A M. Fractional-slot concentrated-windings synchronous permanent magnet machines:opportunities and challenges. IEEE Transactions on Industrial Electronics, 2010, 57(1):107-121 doi: 10.1109/TIE.2009.2030211 [4] Jung J W, Leu V Q, Do T D, Kim E K, Choi H H. Adaptive PID speed control design for permanent magnet synchronous motor drives. IEEE Transactions on Power Electronics, 2015, 30(2):900-908 doi: 10.1109/TPEL.2014.2311462 [5] Chang S H, Chen P Y, Ting Y H, Hung S W. Robust current control-based sliding mode control with simple uncertainties estimation in permanent magnet synchronous motor drive systems. IET Electric Power Applications, 2010, 4(6):441-450 doi: 10.1049/iet-epa.2009.0146 [6] 牛里, 杨明, 王庚, 徐殿国.基于无差拍控制的永磁同步电机鲁棒电流控制算法研究.中国电机工程学报, 2013, 33(15):78-85 http://kns.cnki.net/KCMS/detail/detail.aspx?filename=zgdc201315009&dbname=CJFD&dbcode=CJFQNiu Li, Yang Ming, Wang Geng, Xu Dian-Guo. Research on the robust current control algorithm of permanent magnet synchronous motor based on deadbeat control principle. Proceedings of the CSEE, 2013, 33(15):78-85 http://kns.cnki.net/KCMS/detail/detail.aspx?filename=zgdc201315009&dbname=CJFD&dbcode=CJFQ [7] Errouissi R, Ouhrouche M, Chen W H, Trzynadlowski A. Robust nonlinear predictive controller for permanent-magnet synchronous motors with an optimized cost function. IEEE Transactions on Industrial Electronics, 2012, 59(7):2849-2858 doi: 10.1109/TIE.2011.2157276 [8] 孔小兵, 刘向杰.永磁同步电机高效非线性模型预测控制.自动化学报, 2014, 40(9):1958-1966 http://www.aas.net.cn/CN/abstract/abstract18466.shtmlKong Xiao-Bing, Liu Xiang-Jie. Efficient nonlinear model predictive control for permanent magnet synchronous motor. Acta Automatica Sinica, 2014, 40(9):1958-1966 http://www.aas.net.cn/CN/abstract/abstract18466.shtml [9] 王恩德, 黄声华.表贴式永磁同步电机伺服系统电流环设计.中国电机工程学报, 2012, 32(33):82-88 http://www.cnki.com.cn/Article/CJFDTotal-ZGDC201233011.htmWang En-De, Huang Sheng-Hua. Current Regulator design for surface permanent magnet synchronous motor servo systems. Proceedings of the CSEE, 2012, 32(33):82-88 http://www.cnki.com.cn/Article/CJFDTotal-ZGDC201233011.htm [10] Escobar G, Hernandez-Briones P G, Martinez P R, Hernandez-Gomez M, Torres-Olguin R E. A repetitive-based controller for the compensation of 6l ±1 harmonic components. IEEE Transactions on Industrial Electronics, 2008, 55(8):3150-3158 doi: 10.1109/TIE.2008.921200 [11] 匡敏驰, 朱纪洪, 吉敬华.航空油泵电机的相电流畸变纠正控制.控制与决策, 2015, 30(5):899-904 http://www.cnki.com.cn/Article/CJFDTotal-KZYC201505019.htmKuang Min-Chi, Zhu Ji-Hong, Ji Jing-Hua. Phase current distortion correction control for aerospace fuel pump motor. Control and Decision, 2015, 30(5):899-904 http://www.cnki.com.cn/Article/CJFDTotal-KZYC201505019.htm [12] 李毅拓, 陆海峰, 瞿文龙, 盛爽.基于谐振调节器的永磁同步电机电流谐波抑制方法.中国电机工程学报, 2014, 34(3):423-430 http://industry.wanfangdata.com.cn/yj/Detail/Periodical?id=Periodical_zgdjgcxb201403035Li Yi-Tuo, Lu Hai-Feng, Qu Wen-Long, Sheng Shuang. A permanent magnet synchronous motor current suppression method based on resonant controllers. Proceedings of the CSEE, 2014, 34(3):423-430 http://industry.wanfangdata.com.cn/yj/Detail/Periodical?id=Periodical_zgdjgcxb201403035 [13] McGrath B P, Parker S G, Holmes D G. High-performance current regulation for low-pulse-ratio inverters. IEEE Transactions on Industry Applications, 2013, 49(1):149-158 doi: 10.1109/TIA.2012.2229252 [14] Vidal A, Freijedo F D, Yepes A G, Fernandez-Comesana P, Malvar J, Lopez O, Doval-Gandoy J. Assessment and optimization of the transient response of proportional-resonant current controllers for distributed power generation systems. IEEE Transactions on Industrial Electronics, 2013, 60(4):1367-1383 doi: 10.1109/TIE.2012.2188257 [15] Yim J S, Sul S K, Bae B H, Patel N R, Hiti S. Modified current control schemes for high-performance permanent-magnet ac drives with low sampling to operating frequency ratio. IEEE Transactions on Industry Applications, 2009, 45(2):763-771 doi: 10.1109/TIA.2009.2013600 [16] Yepes A G, Vidal A, Malvar J, López O, Doval-Gandoy J. Tuning method aimed at optimized settling time and overshoot for synchronous proportional-integral current control in electric machines. IEEE Transactions on Power Electronics, 2014, 29(6):3041-3054 doi: 10.1109/TPEL.2013.2276059 [17] Franklin G F, Powell J D, Emami-Naeini A[著], 朱齐丹, 张丽珂, 原新[译]. 动态系统的反馈控制. 第4版. 北京: 电子工业出版社, 2004. 401-408Franklin G F, Powell J D, Emami-Naeini A[Author], Zhu Qi-Dan, Zhang Li-Ke, Yuan Xin[Translator]. Feedback Control of Dynamic Systems (Fourth Edition). Beijing: Publishing House of Electronics Industry, 2004. 401-408 [18] Léchappé V, Moulay E, Plestan F, Glumineau A, Chriette A. New predictive scheme for the control of LTI systems with input delay and unknown disturbances. Automatica, 2014, 52:179-184 https://www.sciencedirect.com/science/article/pii/S0005109814005342 期刊类型引用(6)
1. 毛颖裕,张怡龙,王海霞. 基于多流卷积神经网络的中文笔迹鉴别研究. 高技术通讯. 2023(08): 849-859 . 百度学术
2. 李新德,阿依夏木·力提甫,杨天,熊闻心. 基于词袋模型与几何不变特征的笔迹鉴别. 计算机应用与软件. 2022(07): 154-158+180 . 百度学术
3. 阿依夏木·力提甫,鄢煜尘,肖进胜,江昊,姚渭箐. 基于混合码本与因子分析的文本独立笔迹鉴别. 自动化学报. 2021(09): 2276-2284 . 本站查看
4. 何凯,马红悦,冯旭,刘坤. 基于改进VGG-16模型的英文笔迹鉴别方法. 天津大学学报(自然科学与工程技术版). 2020(09): 984-990 . 百度学术
5. 贾建忠. 基于小波变换和CPN网络的手写签名鉴别. 计算机与现代化. 2020(07): 27-31 . 百度学术
6. 贾建忠. 偏旁部首和笔画特征混合的离线中文笔迹鉴别. 信息技术. 2020(08): 60-64 . 百度学术
其他类型引用(8)
-