2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

异质相依群体系统的协同一致性追踪

裴惠琴 陈世明 赖强 陈谦

陈使明, 王以松. 一种鲁棒的离线笔迹鉴别方法. 自动化学报, 2020, 46(1): 108-116. doi: 10.16383/j.aas.2018.c180441
引用本文: 裴惠琴, 陈世明, 赖强, 陈谦. 异质相依群体系统的协同一致性追踪. 自动化学报, 2018, 44(8): 1528-1536. doi: 10.16383/j.aas.2017.c160852
CHEN Shi-Ming, WANG Yi-Song. A Robust Off-line Writer Identification Method. ACTA AUTOMATICA SINICA, 2020, 46(1): 108-116. doi: 10.16383/j.aas.2018.c180441
Citation: PEI Hui-Qin, CHEN Shi-Ming, LAI Qiang, CHEN Qian. Cooperative Consensus Tracking of Heterogeneous Interdependent Group Systems. ACTA AUTOMATICA SINICA, 2018, 44(8): 1528-1536. doi: 10.16383/j.aas.2017.c160852

异质相依群体系统的协同一致性追踪

doi: 10.16383/j.aas.2017.c160852
基金项目: 

江西省重点研发计划项目 20161BBE53008

国家自然科学基金 61364017

江西省教育厅科学技术研究项目 GJJ150495

江西省教育厅科学技术研究项目 GJJ151168

国家自然科学基金 11662002

详细信息
    作者简介:

    裴惠琴  华东交通大学电气与自动化工程学院讲师. 2017年于华东交通大学获得控制科学与工程博士学位.主要研究方向为群体动力学与协调控制. E-mail: peihuiqinnx@126.com

    赖强  华东交通大学电气与自动化工程学院副教授. 2014年于华中科技大学获得博士学位.主要研究方向为复杂网络, 多智能体协同控制, 非线性动力学分析与控制. E-mail: laiqiang87@126.com

    陈谦  华东交通大学电气与自动化工程学院硕士研究生. 2015年于山东农业大学获得学士学位.主要研究方向为多智能体系统协同定位. E-mail:chq0216@foxmail.com

    通讯作者:

    陈世明  华东交通大学电气与自动化工程学院教授. 2006年于华中科技大学获得博士学位.主要研究方向为复杂网络理论及应用, 多智能体系统协调控制, PSO优化算法.本文通信作者. E-mail: shmchen@ecjtu.jx.cn

Cooperative Consensus Tracking of Heterogeneous Interdependent Group Systems

Funds: 

Key Research and Development Program of Jiangxi Province 20161BBE53008

National Natural Science Foundation of China 61364017

Scientific Research Program of Jiangxi Provincial Education Department GJJ150495

Scientific Research Program of Jiangxi Provincial Education Department GJJ151168

National Natural Science Foundation of China 11662002

More Information
    Author Bio:

     Lecturer at the School of Electrical and Automation Engineering, East China Jiaotong University. She received her Ph. D. degree in control science and engineering from East China Jiaotong University in 2010. Her research interest covers swarm dynamics and cooperative control

     Associate professor at the School of Electrical and Automation Engineering, East China Jiaotong University. He received his Ph. D. degree from Huazhong University of Science and Technology in 2014. His research interest covers complex network, cooperative control of multi-agent system, analysis and control of nonlinear system

     Master student at the School of Electrical and Automation Engineering, East China Jiaotong University. He received his bachelor degree from Shandong Agricultural University. His research interest covers cooperative localization of multi-agent systems

    Corresponding author: CHEN Shi-Ming  Professor at the School of Electrical and Automation Engineering, East China Jiaotong University. He received his Ph. D. degree from Huazhong University of Science and Technology in 2006. His research interest covers complex network theory and application, coordination control of multi-agent systems and particle swarm optimization algorithm. Corresponding author of this paper
  • 摘要: 针对具有固定通信拓扑的异质相依群体系统的协同一致性追踪问题,从个体性质不同和子群体拓扑结构不同的角度出发,构建异质系统的相依模型.为了通过局部信息实现异质相依群体系统的一致性追踪,设计了一类分布式一致性追踪控制协议.随后,对于固定通信拓扑的情况,给出相应的充分条件确保一致性追踪的实现.定义了相依个体比例参数Pr并且分析了该参数对群体系统协同一致性追踪的影响.最后,通过仿真实例说明理论分析的有效性.
  • 笔迹鉴别(Writer identification)是通过手写文字信息来鉴别书写人身份的一种文件检验技术.它作为机器视觉与模式识别领域的研究热点之一, 与人脸识别、语音识别、指纹识别等技术一样属于身份识别的研究范畴, 在最近几十年受到广泛关注.它在司法鉴定与历史文档分析[1-2]方面发挥着重要作用.其中, ICDAR与ICFHR会议以及他们组织的比赛一直在为这个研究方向的发展起着突出的推进作用[3-5].笔迹鉴别任务可分为笔迹识别与笔迹检索两个任务.笔迹识别是通过对比存储在数据库中的笔迹文档(已知书写者)来确定待识别文档属于哪一个书写者所写, 与说话人识别, 特定人脸识别等任务一致; 笔迹检索是通过度量笔迹材料的全局特征向量的相似度检索出查询库中与待查询的笔迹材料最相似的笔迹材料.依据笔迹材料的获取形式可将笔迹鉴别分为两种, 分别为在线笔迹鉴别与离线笔迹鉴别.在线笔迹鉴别可通过在线采集书写的速度、角度、书写者所使用的力量以及写字的笔画顺序等丰富信息进行笔迹鉴别.离线笔迹鉴别材料使用传统的书写工具在纸张上书写笔迹信息, 再通过照相机或扫描仪采集为图片的形式.由于离线笔迹材料的通用性与易获取性, 故其实用性较高, 然而离线笔迹材料包含的信息不如在线笔迹材料丰富, 故其鉴别难度更大.本文研究的对象即为离线笔迹鉴别.

    离线笔迹鉴别受多种因素的影响, 例如, 1)随着书写人年龄的增长, 其书写方式可能会有一定的变化; 2)同一个书写人的材料可能来源于不同笔的使用; 3)书写者的现实物理环境的变化会影响书写者的书写习惯; 4)每个书写者的笔迹材料数量与笔迹信息都非常有限.这对于机器学习方法建模离线笔迹鉴别任务是很大的挑战, 特别是对于深度卷积神经网络(Convolutional neural network, CNN)方法, 如何利用这有限的数据训练一个可靠的神经网络模型是巨大难题.对于笔迹鉴别存在的这些挑战, 早期的研究者们通常构造有效的手工特征方法对笔迹方向的角度、笔画的宽度等手写信息进行建模, 如用Gabor滤波器[6]与局部二值模式(Local binary patterns, LBP)[7]提取笔迹材料的纹理特征和基于文字的柱状图特征; 近期的研究者们充分利用卷积神经网络(CNN)的优势来自动提取特征[8-15], 不断地提高在一些标准数据集上的评测结果, 使得笔迹鉴别提升到新的台阶.

    当前的离线笔迹鉴别方法可归为两类:基于局部特征提取方法与基于全局特征提取方法.基于局部特征提取方法[8-12, 16-17]是对笔迹材料的局部结构、梯度、轮廓、几何特征等进行特征描述, 并通过编码方式将局部特征编码为全局特征.基于全局特征提取方法[7, 18-22]直接对原始的笔迹材料进行全局的特征提取, 然后将提取的全局特征作为鉴别的依据.当然, 也有研究者将局部特征与全局特征组合起来构建更为强大的特征以提高鉴别效果[23].由于局部特征方法能有效地解决小样本问题, 提高算法对笔迹材料的局部信息的特征提取, 所以近几年来, 基于局部特征提取方法得到更大地重视, 而本文的方法亦是基于局部特征提取方法.局部特征提取方法的关键步骤有如下几步: 1)将原始笔迹材料分成小的像素块; 2)对这些小的像素块进行特征提取; 3)通过全局编码方法将局部特征编码为全局特征向量.其中前两个过程是最为根本的两个步骤, 它体现了整体模型的泛化能力. Christlein等[24]探讨了编码方式对笔迹鉴别的影响, 同时强调了前两个基本步骤的重要意义.

    当前大部分的局部特征提取方法都是依赖于尺度不变特征变换(Scale-invariant feature transform, SIFT)[11-12, 24]、加速鲁棒性特征(Speed up robust features, SURF)等方法来提取局部像素块, 但是此方法需要组合编码能力强的编码方式(Fisher vectors, Vector of locally aggregated descriptors (VLAD)[12], Gaussian mixture model (GMM)[11]等)才能取得较好的鉴别结果。而另外的一种是基于文档行分割的方式将原始笔迹材料分割成小的像素块[8, 10]. Fiel等[8]首次提出了基于行分割的方式并组合caffenet提取局部特征, 随后通过取均值的编码方式将每张笔迹材料的局部特征编码为全局特征, 在ICDAR2011[25]和CVL[26]标准数据集上取得当时最好的结果.他使用Deim等[27]提出的行分割方法对笔迹材料进行分割, 用归一化方法纠正歪斜的行文本, 并进行数据增强.由于此模型使用的行切割方法对笔迹粘连或笔迹位于上下两行中间位置的笔迹材料切割的不准确性, 以及8层架构的caffenet的特征学习能力不强等问题, 在ICADRAR2013[3]这一多语言的高挑战性数据集上的表现并不理想. Xing等[10]提出基于新的像素扫描策略与数据增强并组合多流并行CNN的方法, 在IAM[28]和HWDB[29]两个标准数据集上用少量的笔迹信息分别取得99.01 %和97.03 %的识别率[10].

    虽然当前基于局部特征提取的离线笔迹鉴别方法取得很好的成果, 但它们在笔迹检索任务中还过度依赖于数据增强和编码方式, 在笔迹识别任务中需要较多的笔迹信息方可取得较高的识别率.主要由以下两个原因造成: 1)当前基于局部特征提取的离线笔迹鉴别方法的数据预处理提取的小像素块不准确, 使得很多完整的笔迹信息被错误分割; 2)当前基于局部特征提取的离线笔迹鉴别方法的识别模型的表征能力不足, 使得学习的特征还不能充分适应笔迹识别任务.这两个因素直接导致了模型提取的局部特征的鲁棒性和泛化能力差.

    为解决以上问题, 并且鉴于图像分割方法准确性[27, 30-32]和CNN在笔迹鉴别领域的成功应用, 我们提出了一种基于统计的文档行分割与深度卷积神经网络方法(Document line segmentation-convolutional neural network, DLS-CNN).利用基于统计的文档行分割方法分割的准确性以及深度神经网络的强学习能力, 学习具有强鲁棒性的局部特征, 使得模型在笔迹检索任务中无需依赖于数据增强并通过取均值的编码方式就能够取得不错的鉴别效果, 在笔迹识别中仅需要少量的笔迹信息即可对笔迹进行较好地识别.在ICDAR2013[3]与CVL[26]两个标准数据集上实验结果表明: 1) DLS-CNN相较于其他相似方法提取的局部特征具有更强的鲁棒性; 2) DLS-CNN只需要极少的笔迹信息就能对笔迹进行较好的识别, 模型具有较强的泛化能力.

    本文第1节对我们提出的方法进行详细的描述; 第2节给出在两个标准数据集上的实验结果与分析; 最后, 第3节对本文进行总结与展望.

    DLS-CNN (Document line segmentation-convolutional neural network)通过基于统计的文档行分割与深度卷积神经网络的方法提取更具有鲁棒性的局部特征, 以提高笔迹鉴别模型的鉴别能力和泛化能力, 模型的整体结构如图 1所示, 具体步骤如下: 1)用基于统计的文档行分割方法将原始笔迹材料进行文档行分割; 2)通过滑动窗口法将所有的行无重叠地切割成所需要尺度的小像素块; 3)用修改和优化过的残差神经网络(ResNet-50)对这些准备好的小像素块进行训练; 4)用训练好的模型对测试数据进行局部特征提取; 5)将对应笔迹材料的所有局部特征取均值并计算余弦相似度作为后续检索评估的依据.其中, 笔迹的识别只需要前3个步骤, 笔迹检索为DLS-CNN的整个过程.

    图 1  DLS-CNN框架图
    Fig. 1  The framework of DLS-CNN

    基于统计的文档行分割方法先由Arivazhagan等[30]提出解决文档行分割的问题.此方法最大的优点就是对于行倾斜的文档亦能准确地将文档按行进行切割.但是此方法有两个缺点:第一, 当文档的笔迹分布于纸张的右侧时, 由于此算法找不到候选分割行而无法实现行分割; 第二, 当文档的上下行有较多的笔迹粘连或笔迹位于上下两行中间位置时, 由于笔迹成分确定算法的时间复杂度高, 使得其需要较长的时间来确定笔迹成分的归属.为此, 我们对此方法做进一步的改进, 在保证算法准确进行行分割的同时拟解决以上两个问题.基于统计的文档行分割方法包括如下几个过程. 1)通过OTSU阀值法将图像二值化并获取文档笔迹轮廓投影映射; 2)依据一张文档垂直方向投影映射的柱状图和自适应阀值的左右相邻柱状图低谷连接获取候选行; 3)用二元混合高斯密度法将文档上下行成分进行确定; 4)最后获取笔迹材料的行.此算法的核心部分为步骤2)和3).步骤2)的关键是设计有效的函数寻找投影映射的柱状图低谷与高峰, 本文将垂直方向的投影映射的柱状图分为20块.步骤3)使用二元混合高斯模型对文档上下行有粘连笔迹或笔迹位于上下两行中间的成分进行确定, 这有助于将文档进行更加准确的文档行分割.以下将详细描述如何通过二元混合高斯密度法对文档行成分进行建模.我们使用前景像素的$ {x, y} $坐标获取行成分的充分统计量$ {\pmb \mu}_A $, $ {\pmb \mu}_B $, $ \Sigma_A $, $ \Sigma_B $(分别表示$ A $, $ B $行的像素成分的均值向量与协方差矩阵)进行二元混合高斯密度建模.计算$ A $行的第$ N+1 $个像素时, $ A $行像素成分的均值向量如式(1)所示:

    $$ \begin{equation} {\pmb \mu}_{A(N+1)} = \frac{N-1}{N}\cdot{\pmb \mu}_{A(N)}+\frac{1}{N}\cdot p_{N+1} \end{equation} $$ (1)

    其中, $ N $为当前已经计算过的成分数量, $ p_{(N+1)} = \{x_{N+1}, y_{N+1}\} $为第$ N+1 $个像素.计算$ A $行的第$ N+1 $个像素时, $ A $行像素成分的协方差矩阵如式(2)所示:

    $$ \begin{align} \Sigma_{A(N+1)} = &\frac{N-1}{N}\cdot \Sigma_{A(N)}+\frac{1}{N}\cdot\\ & (p_{N+1}-{\pmb \mu}_{A(N+1)}) (p_{N+1}-{\pmb \mu}_{A(N+1)})^{\rm T} \end{align} $$ (2)

    因此, $ A $行的第$ i $个像素成分的二元高斯密度如式(3)所示:

    $$ \begin{equation} P(p_i|{\pmb \mu}_A, \Sigma_A) = |2 \pi \Sigma_A|^{\frac{1}{2}}(p_i-{\pmb \mu}_A) \Sigma_A^{-1}(p_i-{\pmb \mu}_A)^{\rm T} \end{equation} $$ (3)

    最后, $ A $行的像素成分概率如式(4)所示:

    $$ \begin{align} &P(C|{\pmb \mu}_A, \Sigma_A) = P(p_1|{\pmb \mu}_A, \Sigma_A)\cdot P(p_2| {\pmb \mu}_A, \Sigma_A, p_1) \\ &\qquad \cdots P(p_N| {\pmb \mu}_A, \Sigma_A, p1, p2, \cdots, p_{N-1}) \end{align} $$ (4)

    同理, $ B $行的像素成分概率与$ A $行的计算方式相似.最终我们依据上下两行的像素成分概率来确定像素属于哪一行的成分. ICDAR2013的$ 029\_1 $和$ 002\_4 $样本的文档行分割结果如图 2所示, 图 2 (a)为模型最终确定的两个样本文档行分割的结果, 图 2 (b)为样本$ 029\_1 $被分割后形成的行笔迹材料.

    图 2  文档行分割样例
    Fig. 2  The example of document line segmentation

    在完成笔迹材料的行切割之后, 将所有的行笔迹归一化, 然后做进一步的切割.使用滑动窗口法, 依据所需要的尺度(图像宽度像素值)进行无重叠地切割.由于尺度为64像素与256像素提取的像素块保留更完整的"字母"级与"单词"级笔迹, 所以实验中分别用到的尺度为64像素尺度与256像素尺度.对于64尺度切割的像素块, 进一步用空白像素填充法将其扩充为256 $ \times $ 256大小的像素块, 而对于256尺度切割的像素块, 则无需做进一步处理, 因为后续的特征提取网络的输入尺度为224 $ \times $ 224.最后再剔除对模型特征提取产生噪声的空白像素块和含笔迹信息较少的像素块(如只有一个点).最终处理好的像素块如图 3 (b)图 3 (c)所示, 图 3 (b)为64尺度切割的像素块, 图 3 (c)为256尺度切割的像素块.对比其他用于笔迹鉴别的方法[11]提取的小像素块, 当上下行笔迹粘连或笔迹位于上下两行中间位置时(如笔迹中含有字母$ g, y, f $等字母), 传统方法则不能较好的分割, 使得很多完整笔迹成分被错误分割, 如图 3 (a)所示.

    图 3  分割好的像素块
    Fig. 3  The segmented patches

    深度残差神经网络(ResNet)由He等[33]提出, 他们将网络引入残差学习单元保护了输入信息的完整性, 使得随着网络的加深模型不会出现退化的现象, 而是进一步提升学习能力.他们在ILSVRC和COCO2015比赛中的目标定位、分割、识别、探测任务中均取得第一名的优异成绩.随后, 他们进一步探索深度残差神经网络的学习能力, 并通过实验表明残差神经网络是当前特征学习能力最强的网络模型[34]. Christlein等[24]也通过实验表明残差神经网络在笔迹鉴别任务中比其他网络具有更强的表征能力.为此, 在此模型中采用ResNet学习局部特征.为了平衡时间复杂度、资源消耗与学习效率, 我们使用ResNet-50这个模型框架.由于笔迹识别任务的特殊性, 将ResNet-50做了相应的优化和改进, 其结构组成如表 1所示.为了获取更具全局性与鲁棒性的局部特征, 我们将原始的平均池化层改为全局池化层.此外, 由于训练集相对较小与网络较深的原因, 我们在全连接层后面添加了relu激活特征层与dropout层, 并将dropout率设置为0.5, 以增强模型的正则化, 防止过拟合.在笔迹检索任务中, 学习率初始设置为0.1, 并在训练30步后将其降为0.01;在笔迹识别任务中, 学习率初始设置为0.1, 训练20步之后将其缩小为0.02, 在训练30步之后, 进一步将其缩小为0.01.模型的输入图像大小为224 $ \times $ 224, 梯度下降的动量因子设置为0.9, softmax层的大小设置应根据任务(笔迹识别、笔迹检索)与数据集而定.我们在ICDAR2013数据集上做笔迹检索任务时, 将其大小设置为100;而在CVL数据集上做笔迹识别任务时, 我们将其大小设置为310.

    表 1  ResNet-50结构
    Table 1  The structure of ResNet-50
    Layer name Layers Output size
    Conv1 7 $\times$ 7, 64, Stride 2 112 $\times$ 112
    Conv2-x1 3 $\times$ 3 Max pool, Stride 2 56 $\times$ 56
    Conv2-x2 $\left[\begin{array}{c} 1 \times 1, 64\\ 3 \times 3, 64 \\ 1 \times 1, 256\end{array}\right] \times 3$ 56 $\times$ 56
    Conv3-x $\left[\begin{array}{c} 1 \times 1, 128 \\ 3 \times 3, 128 \\ 1 \times 1, 512\end{array}\right] \times 4$ 28 $\times$ 28
    Conv4-x $\left[\begin{array}{c} 1 \times 1, 256 \\ 3 \times 3, 256 \\ 1 \times 1, 1 024 \end{array}\right] \times 6$ 14 $\times$ 14
    Conv5-x $\left[\begin{array}{c} 1 \times 1, 512 \\ 3 \times 3, 512 \\ 1 \times 1, 2 048 \end{array}\right] \times 3$ 7 $\times$ 7
    Global average pool 1 $\times$ 1
    Fc, Relu, Dropout, Softmax 1 $\times$ 1
    下载: 导出CSV 
    | 显示表格

    对于笔迹检索任务, 需将测试集中的小像素块进行局部特征提取.本文分别对全局池化层与全连接层的特征进行了不同特征数(128, 512, 1 024, 2 048)的提取, 以寻找模型最佳局部特征.在特征提取过程中, 残差神经网络的最后一层可以舍弃.随后, 将提取的局部特征进行PCA白化处理, 以降低特征维度和降解特征间的相互关系.这个白化操作被证明在笔迹与图像检索中具有积极作用[35-36].

    特征编码作为基于局部特征提取的笔迹检索中必不可少的一步, 对笔迹检索的提升具有重大意义. Christlein等[24]通过实验表明编码能有效促进笔迹检索效果, 并且编码方式有优劣之分.当前应用于笔迹鉴别的编码方式有很多, 如取均值法[8]、Fisher Vectors编码法[37]、GMM编码法[11, 38]、VLAD编码法[12, 24]等, 其中后三种编码方式是最有效的编码方式, 这几种编码方式充分利用局部特征的相关信息对笔迹检索效果的促进作用较大.而取均值法由于信息损失过多, 使得其编码效果得不到较好的提升.但本文为了验证DLS-CNN模型的学习能力与检验提取的局部特征的鲁棒性, 并与Fiel等[8]提出的模型进行有效对比, DLS-CNN型采用和Fiel等[8]一致的取均值的编码方式.这种取均值的方式是将一份原始笔迹材料的所有小像素块的特征向量的均值作为这份原始笔迹材料的全局特征.因此第$ j $份原始笔迹材料的全局特征$ {\pmb V}_j $为:

    $$ \begin{equation} {\pmb V}_j = \frac{1}{N} \sum \limits_{i = 1}^{N}{\pmb x}_i^{(j)} \end{equation} $$ (5)

    其中, $ N $为第$ j $份原始笔迹材料的小像素块数量, $ {\pmb x}_i^{(j)} $为第$ j $份原始笔迹材料的第$ i $个小像素块的特征向量.因为当模型使用信息损失较大的编码方式都能取得较好的效果时, 说明该模型学习的局部特征具有更强鲁棒性与泛化能力.随后, 将编码好的全局特征求取待查询笔迹文档的余弦相似度作为检索标准.

    由于ICDAR2013[3]和CVL[26]这两个具有挑战性的多语言标准数据集都是近些年笔迹鉴别研究使用最多的数据集之一, 故我们同时使用这两个标准数据集评估DLS-CNN提取特征的强鲁棒性和模型的学习能力.其中, 我们在ICDAR2013数据集上做笔迹检索任务, 在CVL数据集上做笔迹识别任务.

    为评估模型的鲁棒性与泛化能力, 我们使用平均准确率均值(Mean average precision, mAP)、Soft top-$ k $、Hard top-$ k $三个评估标准用于笔迹检索任务中, 这几个评估标准是广泛应用于信息检索任务的标准.我们使用Top-$ k $评估标准用于笔迹识别任务中.

    平均准确率均值: mAP是平均准确率的均值, 其是反映模型在所有相关文档上的性能指标.假设我们有$ N $个待查询笔迹材料, 则第$ i $个查询笔迹材料的平均准确率$ AP(i) $为:

    $$ \begin{equation} AP_{(i)} = \frac{\sum \limits_{k = 1}^{M}P(k)\cdot rel(k)}{R} \end{equation} $$ (6)

    其中, $ M $表示查询库(待查询笔迹材料库)中的笔迹材料数量, 此论文中, 我们将数据集ICDAR2013的测试集作为一个查询库. $ R $表示查询库中与第个查询笔迹材料相关(同一笔迹)的文档总数. $ P(k) $表示查询结果中前$ k $个结果的准确率, 即前$ k $个查询结果中出现相关笔迹材料的个数与$ k $的比值. $ rel(k) $是一个指示函数, 如果第$ k $个查询结果是相关文档, 则其值为1, 否则为0.从而mAP定义为:

    $$ \begin{equation} {\rm mAP}\; = \; \frac{1}{N} \sum \limits_{i = 1}^{N}AP(i) \end{equation} $$ (7)

    Soft top-$ {\pmb k } $ 与Hard top-$ {\pmb k} $: Soft top-$ k $ (S-$ k $)的评估方法与累计匹配特性值(Cumulative matching characteristic, CMC)等价, 其表征模型在单个相关文档上的性能指标.当每次查询的前$ k $个查询结果含有一个(及以上)相关文档时, 我们将其定义为一次正确查询, Soft top-$ k $表示为所有正确查询的次数与总查询次数的百分比.而在Hard top-$ k $ (H-$ k $)评估标准中, 当返回的前$ k $个查询结果全是相关文档时, 我们将其定义为一次正确查询, Hard top-$ k $表示为正确的查询次数与总查询次数的百分比, 其刻画模型在多个相关文档上的性能指标.很明显, Soft top-$ k $随着$ k $的值增加而升高, Hard top-$ k $随着$ k $的值增加而降低.

    Top-$ {\pmb k} $: Top-$ k $评估指标用于笔迹识别任务, 与Soft top-$ k $评估指标意义一致, 都是反应模型在单个相关文档上的性能指标.当每次识别的前$ k $个最相似的类中含有与目标类一致的类, 我们将其定义为一次正确识别, 则Top-$ k $表示为所有正确识别的次数与总识别次数的百分比.

    ICDAR2013[3]标准数据集的训练集和测试集分别包含了100和250个书写者的笔迹材料, 每个书写者贡献4张笔迹材料, 其中2张的笔迹内容为英语, 另外两张为希腊语.由于混合语言, 这个数据集的笔迹识别具有较大的挑战.对数据集分别进行64与256尺度的像素切割之后, 64尺度切割的小像素块数量为:训练集70 911个, 测试集218 999个; 256尺度切割的小像素块数量为:训练集21 160个, 测试集64 820个.我们分别对这两个尺度切割的数据进行了实验, 结果如表 2所示.结果显示:基于词级别大小数据提取的特征比基于字母级别大小数据提取的特征, 在所有的指标上均取得更好的表现, 表明基于词级别大小的数据更适合于DLS-CNN, 因为基于词级别大小的数据包含更多的完整笔迹.并且, 256尺度切割的像素块比64尺度切割的像素块少, 使得模型在256尺度的数据上进行实验的运行时间相对较短.为此, 接下来的所有实验均基于256尺度切割的数据.

    表 2  不同像素块大小的对比(%)
    Table 2  Comparison of different patch sizes (%)
    S-1 S-5 S-10 H-2 H-3 mAP
    64尺度 87.8 94.7 97.0 57.3 36.7 76.5
    256尺度 $\textbf{95.0}$ $\textbf{98.4}$ $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$
    下载: 导出CSV 
    | 显示表格

    此外, 我们探讨了不同特征层提取特征的表现能力.在实验中分别提取了全局池化层与全连接层的特征作为局部特征, 实验结果如表 3所示.结果显示:全连接层提取的特征仅Soft top-1指标比全局池化层提取的特征表现差, 在其他的指标中都有更加优异的表现.这主要归因于: 1)全连接层提取的特征对前面层的特征进一步的抽象成为高阶的描述特征, 更能全局地描述输入图像的特点; 2)分类层以全连接层的特征作为分类的依据, 分类层所产生的损失将直接作用于全连接层, 使得全连接层更能体现分类信息.在此基础上, 我们对提取的特征数做了进一步的探讨, 分别对128, 512, 1 024, 2 048个特征数目进行了实验.实验表明, 当取512个特征数时, 模型具有更好的表现, 并且模型所需的训练时间与检索时间也相对较短, 结果如表 4所示.

    表 3  不同特征层的对比(%)
    Table 3  Comparison of different feature layers (%)
    S-1 S-5 S-10 H-2 H-3 mAP
    全局池化层 $\textbf{95.4}$ 97.9 98.5 63.1 41.2 79.7
    全连接层 95.0 $\textbf{98.4}$ $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$
    下载: 导出CSV 
    | 显示表格
    表 4  特征数目的对比(%)
    Table 4  Comparison of feature numbers (%)
    S-1 S-5 S-10 H-2 H-3 mAP
    128 95.2 $\textbf{98.7}$ 99.0 70.1 48.6 84.3
    512 95.0 98.4 $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$
    1 024 95.0 98.4 99.0 70.0 48.8 84.1
    2 048 $\textbf{96.0}$ 98.4 98.6 67.1 45.8 83.0
    下载: 导出CSV 
    | 显示表格

    在DLS-CNN模型中, 主成分分析也对模型产生了积极作用, 我们将提取95 PCA白化不仅提高模型的泛化能力, 而且还通过压缩特征节约了笔迹检索时间, 结果如表 5所示.

    表 5  PCA白化的评估(%)
    Table 5  Evaluation of PCA$\_$Whitening (%)
    S-1 S-5 S-10 H-2 H-3 mAP
    无PCA白化 88.9 97.1 98.0 63.9 47.6 82.1
    有PCA白化 $\textbf{95.0}$ $\textbf{98.4}$ $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$
    下载: 导出CSV 
    | 显示表格

    最后, 也将DLS-CNN与其他当前表现较好的相似模型进行对比.特别是与Fiel等[8]提出的模型对比, 因为DLS-CNN的处理过程与Fiel等提出的模型最为相似.由于Fiel等提出的方法对于上下行粘连的笔迹和位于上下行中间的笔迹不能正确分割, 使得其在更具挑战性的ICDAR2013数据集上的鉴别表现不佳.实验结果显示, 我们提出的模型在大部分的评估指标都取得明显更优的表现, 并且在Hard top-2与Hard top-3上分别有29.8说明DLS-CNN弥补了基于行分割与CNN模型的不足.此外, DLS-CNN模型与Christlein等[24]提出的模型在同样使用取均值编码的情况下进行对比, DLS-CNN在Soft top-1与mAP两个评估指标上分别提升了8.2表明基于统计的文档行分割与深度卷积神经网络的笔迹鉴别方法的模型能学得更具鲁棒性的特征, 具有更强的泛化能力.但是我们提出的方法在Soft top-$ k $的指标上并没有取得更加优异的表现.我们通过进一步实验找出那些未能正确查询的笔迹材料, 发现我们的方法对粗笔所写的笔迹材料识别效果差.细笔/粗笔像素块的样例如图 3 (c)所示.可能原因有以下两个: 1)由于数据集中粗笔写的笔迹材料极少, 导致模型不能较好地学习粗笔所写笔迹材料的相应特征; 2)由于粗笔所写笔迹材料不能较好地被正确分割, 使得所获取的像素块不能保留更多完整的笔迹信息.具体实验对比如表 6所示.

    表 6  与其他模型的对比(%)
    Table 6  Comparison with other models (%)
    S-1 S-5 S-10 H-2 H-3 mAP
    CS-UMD-a[3] 95.1 98.6 99.1 19.6 7.1 N/A
    CS-UMD-b[3] 95.0 98.6 99.2 20.2 8.4 N/A
    HIT-ICG[3] 94.8 98.0 98.3 63.2 36.5 N/A
    TEBESSA-a[3] 90.3 96.7 98.3 58.2 33.2 N/A
    TEBESSA-b[3] 93.4 97.8 98.5 62.6 36.5 N/A
    Christlein[11] 97.1 98.8 99.1 42.8 23.8 67.7
    Wu[9] 95.6 98.6 99.1 63.8 36.5 N/A
    Nicolaou[14] $\textbf{97.2}$ $\textbf{98.9}$ 99.2 52.9 29.2 N/A
    Fiel[8] 88.5 96.0 98.3 40.5 15.8 N/A
    Christlein[24] 86.8 N/A N/A N/A N/A 78.9
    DLS-CNN 95.0 98.4 $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$
    下载: 导出CSV 
    | 显示表格

    CVL[26]数据集的训练集与测试集分别包含27与283个书写者, 在训练集与测试集中每个书写者分别贡献7份与5份笔迹材料, 每个书写者写一份德语笔迹材料, 其他均为英语笔迹材料.在实验中, 在训练集中每个作者取5份与测试集笔迹材料内容相同的笔迹材料.最终将310位书写者贡献的1 550份笔迹材料用256尺度分割成153 315个小的像素块, 并按8:1:1的比例分为训练集、验证集和测试集.在此数据集上, 为了检验模型在笔迹识别任务的鲁棒性与泛化能力, 我们直接对256尺度大小的小像素块进行训练与测试.

    实验结果如图 4所示.当训练步数达到35步之后, DLS-CNN的识别率基本稳定, Top-1的最高识别率为95.8由于前20步的学习率较大, 使得模型不易收敛并且未找到较好的局部最优点, 在20步后将学习率缩小5倍, 模型相对比较稳定, 在30步之后进一步将学习率缩小2倍, 模型慢慢收敛并趋于稳定.具体结果如图 4所示, 图 4 (a)表示Top-1的识别率, 图 4 (b)表示Top-5的识别率.与当前在CVL数据集获得识别率效果最好的算法的相比, DLS-CNN仅以一个256尺度大小的像素块在Top-5的识别率相较于其他基于1整张笔迹材料的Top-5识别率从99.8取得当前最高的识别率, 如表 7所示.但我们的方法在Top-1评估指标上的表现不理想, 原因在于我们的方法对粗笔所写的笔迹材料不能提取比较有效的特征对其进行更好地识别.实验表明, DLS-CNN能够以很少量的笔迹信息对笔迹进行较准确地识别, 体现了DLS-CNN能在笔迹识别任务中具有较强的鲁棒性与泛化能力.

    图 4  256尺度大小的识别率
    Fig. 4  The identification rate of 256 patch size
    表 7  与其他模型的对比(%)
    Table 7  Comparison with other models (%)
    输入笔迹材料 Top-1 Top-5
    TSINGHUA[26] 1页 97.7 99.0
    Fiel[8] 1页 98.9 99.3
    Wu[9] 1页 99.2 99.5
    Nicolaou[14] 1页 99.0 99.4
    Christlein[38] 1页 99.4 N/A
    Tang[13] 1页 $\textbf{99.7}$ 99.8
    DLS-CNN 256像素块 95.8 $\textbf{99.9}$
    下载: 导出CSV 
    | 显示表格

    本文提出了一种基于统计的文档行分割与深度卷积神经网络结合的离线笔迹鉴别方法, 以学习具有强鲁棒性的局部特征和较强泛化能力的模型为目标, 解决了其他基于局部特征的笔迹鉴别方法提取的局部特征过度依赖数据增强与全局编码的问题和模型泛化能力不足的问题.这得益于基于统计的文档行分割方法进行文档行分割的准确性, 以及改进的残差神经网络强学习能力的优越性.在ICDAR2013与CVL两个含多语言的标准数据集上的实验结果表明了DLS-CNN是一种具有强鲁棒性的离线笔迹鉴别方法.

    在未来的工作中, 基于统计的文档行分割方法可以做进一步的改进, 通过更有效的方法对柱状图低谷和高峰进行更准确的确定, 使得模型在初始行的寻找更加准确, 从而得到更加精确的行分割.在实验中发现该模型对于粗笔写的笔迹材料不能较好的鉴别, 致使我们提出的方法不能在Soft top-$ k $指标上取得较好的表现, 我们将对此问题做更进一步的研究.此外, 寻求一种合适的正则化方法对CNN模型进行正则化, 防止模型的过拟合且使模型更加稳定, 并在多个包含其他语言(中文、拉丁文、法语等)的数据集上对模型做进一步的验证.


  • 本文责任编委 程龙
  • 图  1  异质群体系统的相依模型示意图

    Fig.  1  Interdependent models of heterogeneous\\ group systems

    图  2  异质相依群体系统的固定无向拓扑图

    Fig.  2  Fixed undirected topology of the heterogeneous interdependent group system

    图  3  个体的位置状态追踪误差和速度示意图

    Fig.  3  Position state tracking errors and velocities of individuals

    图  4  个体的位置状态追踪误差和速度示意图

    Fig.  4  Position state tracking errors and velocities of individuals

    图  5  异质相依群体系统的固定有向拓扑图

    Fig.  5  Fixed directed topology of the heterogeneous interdependent group system

    图  6  个体的位置状态追踪误差和速度示意图

    Fig.  6  Position state tracking errors and velocities of individuals

  • [1] You K Y, Li Z K, Xie L H. Consensus condition for linear multi-agent systems over randomly switching topologies. Automatica, 2013, 49(10):3125-3132 doi: 10.1016/j.automatica.2013.07.024
    [2] Liu Z W, Guan Z H, Shen X M, Fang G. Consensus of multi-agent networks with aperiodic sampled communication via impulsive algorithms using position-only measurements. IEEE Transactions on Automatic Control, 2012, 57(10):2639-2643 doi: 10.1109/TAC.2012.2214451
    [3] Pei H Q, Chen S M, Lai Q. A local flocking algorithm of multi-agent dynamic systems. International Journal of Control, 2015, 88(11):2242-2249 doi: 10.1080/00207179.2015.1039595
    [4] Xu G H, Guan Z H, He D X, Chi M, Wu Y H. Distributed tracking control of second-order multi-agent systems with sampled data. Journal of the Franklin Institute, 2014, 351(10):4786-4801 doi: 10.1016/j.jfranklin.2014.06.003
    [5] Zou L, Wang Z D, Gao H J. Observer-based H control of networked systems with stochastic communication protocol:the finite-horizon case. Automatica, 2016, 63:366-373 doi: 10.1016/j.automatica.2015.10.045
    [6] Meng Z Y, Lin Z L, Ren W. Robust cooperative tracking for multiple non-identical second-order nonlinear systems. Automatica, 2013, 49(8):2363-2372 doi: 10.1016/j.automatica.2013.04.040
    [7] Wu Y Q, Su H Y, Shi P, Shu Z, Wu Z G. Consensus of multiagent systems using aperiodic sampled-data control. IEEE Transactions on Cybernetics, 2016, 46(9):2132-2143 doi: 10.1109/TCYB.2015.2466115
    [8] 周峰, 吴炎烜.基于有向网络的一致性跟踪算法.自动化学报, 2015, 41(1):180-185 http://www.aas.net.cn/CN/abstract/abstract18596.shtml

    Zhou Feng, Wu Yan-Xuan. Consensus tracking algorithms with directed network. Acta Automatica Sinica, 2015, 41(1):180-185 http://www.aas.net.cn/CN/abstract/abstract18596.shtml
    [9] 陈世明, 化俞新, 祝振敏, 赖强.邻域交互结构优化的多智能体快速蜂拥控制算法.自动化学报, 2015, 41(12):2092-2099 http://www.aas.net.cn/CN/abstract/abstract18782.shtml

    Chen Shi-Ming, Hua Yu-Xin, Zhu Zhen-Min, Lai Qiang. Fast flocking algorithm for multi-agent systems by optimizing local interactive topology. Acta Automatica Sinica, 2015, 41(12):2092-2099 http://www.aas.net.cn/CN/abstract/abstract18782.shtml
    [10] Rahimi R, Abdollahi F, Naqshi K. Time-varying formation control of a collaborative heterogeneous multi agent system. Robotics and Autonomous Systems, 2014, 62(12):1799-1805 doi: 10.1016/j.robot.2014.07.005
    [11] Chen J, Zhang X, Xin B, Fang H. Coordination between unmanned aerial and ground vehicles:a taxonomy and optimization perspective. IEEE Transactions on Cybernetics, 2016, 46(4):959-972 doi: 10.1109/TCYB.2015.2418337
    [12] Robin C, Lacroix S. Multi-robot target detection and tracking:taxonomy and survey. Autonomous Robots, 2016, 40(4):729-760 doi: 10.1007/s10514-015-9491-7
    [13] Zhang H, Feng G, Yan H C, Chen Q J. Observer-based output feedback event-triggered control for consensus of multi-agent systems. IEEE Transactions on Industrial Electronics, 2014, 61(9):4885-4894 doi: 10.1109/TIE.2013.2290757
    [14] Johnson G A, Mar D J, Carroll T L, Pecora L M. Synchronization and imposed bifurcations in the presence of large parameter mismatch. Physical Review Letters, 1998, 80(18):3956-3959 doi: 10.1103/PhysRevLett.80.3956
    [15] Pei H Q, Chen S M, Lai Q. Multi-target consensus circle pursuit for multi-agent systems via a distributed multi-flocking method. International Journal of Systems Science, 2016, 47(16):3741-3748 doi: 10.1080/00207721.2015.1117687
    [16] Li S B, Feng G, Wang J, Luo X Y, Guan X P. Adaptive control for cooperative linear output regulation of heterogeneous multi-agent systems with periodic switching topology. IET Control Theory and Applications, 2015, 9(1):34-41 doi: 10.1049/iet-cta.2014.0315
    [17] Ma Q, Xu S Y, Lewis F L, Zhang B Y, Zou Y. Cooperative output regulation of singular heterogeneous multiagent systems. IEEE Transactions on Cybernetics, 2016, 46(6):1471-1475 doi: 10.1109/TCYB.2015.2436971
    [18] Zheng Y S, Wang L. A novel group consensus protocol for heterogeneous multi-agent systems. International Journal of Control, 2015, 88(11):2347-2353 doi: 10.1080/00207179.2015.1043581
    [19] Liu C L, Liu F. Stationary consensus of heterogeneous multi-agent systems with bounded communication delays. Automatica, 2011, 47(9):2130-2133 doi: 10.1016/j.automatica.2011.06.005
    [20] Ma J Y, Zheng Y S, Wang L. LQR-based optimal topology of leader-following consensus. International Journal of Robust and Nonlinear Control, 2015, 25(17):3404-3421 doi: 10.1002/rnc.v25.17
    [21] Hu H X, Xuan Q, Yu W W, Zhang C G, Xie G M. Second-order consensus for heterogeneous multi-agent systems in the cooperation-competition network:a hybrid adaptive and pinning control approach. Nonlinear Analysis:Hybrid Systems, 2016, 20:21-36 doi: 10.1016/j.nahs.2015.10.005
    [22] Liu K E, Ji Z J, Xie G M, Wang L. Consensus for heterogeneous multi-agent systems under fixed and switching topologies. Journal of the Franklin Institute, 2015, 352(9):3670-3683 doi: 10.1016/j.jfranklin.2015.03.009
    [23] Sun J Y, Geng Z Y, Lv Y Z. Adaptive output feedback consensus tracking for heterogeneous multi-agent systems with unknown dynamics under directed graphs. Systems and Control Letters, 2016, 87:16-22 doi: 10.1016/j.sysconle.2015.10.007
    [24] Yang Y, Yue D, Dou C X. Distributed adaptive output consensus control of a class of heterogeneous multi-agent systems under switching directed topologies. Information Sciences, 2016, 345:294-312 doi: 10.1016/j.ins.2016.01.043
    [25] Wen G G, Huang J, Wang C Y, Chen Z, Peng Z X. Group consensus control for heterogeneous multi-agent systems with fixed and switching topologies. International Journal of Control, 2016, 89(2):259-269 doi: 10.1080/00207179.2015.1072876
    [26] Zhou Y J, Yu X H, Sun C Y, Yu W W. Higher order finite-time consensus protocol for heterogeneous multi-agent systems. International Journal of Control, 2015, 88(2):285-294 doi: 10.1080/00207179.2014.950047
    [27] Feng Y Z, Xu S Y, Lewis F L, Zhang B Y. Consensus of heterogeneous first-and second-order multi-agent systems with directed communication topologies. International Journal of Robust and Nonlinear Control, 2015, 25(3):362-375 doi: 10.1002/rnc.v25.3
    [28] Zhu Y K, Guan X P, Luo X Y. Finite-time consensus of heterogeneous multi-agent systems. Chinese Physics B, 2013, 22(3):Article No. 038901 http://iopscience.iop.org/1674-1056/22/3/038901
    [29] Rinaldi S M, Peerenboom J P, Kelly T K. Identifying, understanding, and analyzing critical infrastructure interdependencies. IEEE Control Systems, 2001, 21(6): 11-25 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=969131
    [30] Ren W, Beard R W. Distributed Consensus in Multi-Vehicle Cooperative Control:Theory and Applications. London, UK:Springer-Verlag, 2008.
  • 期刊类型引用(6)

    1. 毛颖裕,张怡龙,王海霞. 基于多流卷积神经网络的中文笔迹鉴别研究. 高技术通讯. 2023(08): 849-859 . 百度学术
    2. 李新德,阿依夏木·力提甫,杨天,熊闻心. 基于词袋模型与几何不变特征的笔迹鉴别. 计算机应用与软件. 2022(07): 154-158+180 . 百度学术
    3. 阿依夏木·力提甫,鄢煜尘,肖进胜,江昊,姚渭箐. 基于混合码本与因子分析的文本独立笔迹鉴别. 自动化学报. 2021(09): 2276-2284 . 本站查看
    4. 何凯,马红悦,冯旭,刘坤. 基于改进VGG-16模型的英文笔迹鉴别方法. 天津大学学报(自然科学与工程技术版). 2020(09): 984-990 . 百度学术
    5. 贾建忠. 基于小波变换和CPN网络的手写签名鉴别. 计算机与现代化. 2020(07): 27-31 . 百度学术
    6. 贾建忠. 偏旁部首和笔画特征混合的离线中文笔迹鉴别. 信息技术. 2020(08): 60-64 . 百度学术

    其他类型引用(8)

  • 加载中
  • 图(6)
    计量
    • 文章访问数:  2416
    • HTML全文浏览量:  331
    • PDF下载量:  526
    • 被引次数: 14
    出版历程
    • 收稿日期:  2016-12-29
    • 录用日期:  2017-04-21
    • 刊出日期:  2018-08-20

    目录

    /

    返回文章
    返回