2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于自适应稀疏变换的指纹图像压缩

马名浪 何小海 滕奇志 陈洪刚 卿粼波

陈使明, 王以松. 一种鲁棒的离线笔迹鉴别方法. 自动化学报, 2020, 46(1): 108-116. doi: 10.16383/j.aas.2018.c180441
引用本文: 马名浪, 何小海, 滕奇志, 陈洪刚, 卿粼波. 基于自适应稀疏变换的指纹图像压缩. 自动化学报, 2016, 42(8): 1274-1284. doi: 10.16383/j.aas.2016.c150815
CHEN Shi-Ming, WANG Yi-Song. A Robust Off-line Writer Identification Method. ACTA AUTOMATICA SINICA, 2020, 46(1): 108-116. doi: 10.16383/j.aas.2018.c180441
Citation: MA Ming-Lang, HE Xiao-Hai, TENG Qi-Zhi, CHEN Hong-Gang, QING Lin-Bo. Fingerprint Image Compression Algorithm via Adaptive Sparse Transformation. ACTA AUTOMATICA SINICA, 2016, 42(8): 1274-1284. doi: 10.16383/j.aas.2016.c150815

基于自适应稀疏变换的指纹图像压缩

doi: 10.16383/j.aas.2016.c150815
基金项目: 

国家自然科学基金 61471248

四川省教育厅2014研究生教育改革创新项目 2014-Education-034

四川省科技计划项目 2015JY0189

详细信息
    作者简介:

    马名浪 四川大学电子信息学院硕士研究生.主要研究方向为图像超分辨率和图像压缩.E-mail:hellomaminglang@163.com;

    滕奇志 博士,四川大学电子信息学院教授.主要研究方向为图像处理,图像传输,模式识别和软件工程.E-mail:qzteng@scu.edu.cn;

    陈洪刚 四川大学电子信息学院博士研究生.主要研究方向为图像压缩,图像超分辨率,图像复原和压缩感知.E-mail:honggangchen.scu@gmail.com;

    卿粼波 博士,四川大学电子信息学院副教授.主要研究方向为图像压缩,视频编码与传输,信息理论.E-mail:_lb@scu.edu.cn

    通讯作者:

    何小海 博士,四川大学电子信息学院教授.主要研究方向为图像处理,模式识别和图像通信.本文通信作者.E-mail:hxh@scu.edu.cn

Fingerprint Image Compression Algorithm via Adaptive Sparse Transformation

Funds: 

National Natural Science Foundation of China 61471248

2014 Postgraduate Education Innovation Project of Sichuan Education Department 2014-Education-034

Technology Project of Sichuan Province 2015JY0189

More Information
    Author Bio:

    Master student at the College of Electronics and Information Engineering, Sichuan University. His research interest covers image super resolution and image compression.E-mail:

    Ph. D., professor at the College of Electronics and Information Engineering, Sichuan University. Her research interest covers image processing, image communication, pattern recognition, and software engineering.E-mail:

    Ph. D. candidate at the College of Electronics and Information Engineering, Sichuan University. His research interest covers image compression image super resolution, image restoration, and compressed sensing.E-mail:

    Ph. D., associate professor at the College of Electronics and Information Engineering, Sichuan University. His research interest covers image processing, video coding and transmission, and information theory.E-mail:

    Corresponding author: HE Xiao-Hai Ph. D., professor at the College of Electronics and Information Engineering, Sichuan University. His research interest covers image processing, pattern recognition, and image communication.
  • 摘要: 随着指纹识别技术的广泛应用,大量指纹图像需要被收集和存储.在指纹识别系统中,对于大容量的指纹数据库,指纹图像必须经过压缩后存储以减少存储空间,本文提出了基于自适应稀疏变换的指纹图像压缩算法.该算法在离线状态下提取指纹图像特征训练超完备字典;在编码过程中,首先利用差分预测编码和稀疏变换将待压缩指纹图像转换到稀疏域,然后对直流系数和稀疏表达系数进行量化和熵编码,从而实现图像信息的压缩.实验表明,在中低码率段,本文算法相比于JPEG、JPEG2000和WSQ等主流压缩算法表现出更优越的率失真性能;在相同码率时,本文算法生成的压缩图像的主观视觉效果更好,指纹识别率更高.
  • 笔迹鉴别(Writer identification)是通过手写文字信息来鉴别书写人身份的一种文件检验技术.它作为机器视觉与模式识别领域的研究热点之一, 与人脸识别、语音识别、指纹识别等技术一样属于身份识别的研究范畴, 在最近几十年受到广泛关注.它在司法鉴定与历史文档分析[1-2]方面发挥着重要作用.其中, ICDAR与ICFHR会议以及他们组织的比赛一直在为这个研究方向的发展起着突出的推进作用[3-5].笔迹鉴别任务可分为笔迹识别与笔迹检索两个任务.笔迹识别是通过对比存储在数据库中的笔迹文档(已知书写者)来确定待识别文档属于哪一个书写者所写, 与说话人识别, 特定人脸识别等任务一致; 笔迹检索是通过度量笔迹材料的全局特征向量的相似度检索出查询库中与待查询的笔迹材料最相似的笔迹材料.依据笔迹材料的获取形式可将笔迹鉴别分为两种, 分别为在线笔迹鉴别与离线笔迹鉴别.在线笔迹鉴别可通过在线采集书写的速度、角度、书写者所使用的力量以及写字的笔画顺序等丰富信息进行笔迹鉴别.离线笔迹鉴别材料使用传统的书写工具在纸张上书写笔迹信息, 再通过照相机或扫描仪采集为图片的形式.由于离线笔迹材料的通用性与易获取性, 故其实用性较高, 然而离线笔迹材料包含的信息不如在线笔迹材料丰富, 故其鉴别难度更大.本文研究的对象即为离线笔迹鉴别.

    离线笔迹鉴别受多种因素的影响, 例如, 1)随着书写人年龄的增长, 其书写方式可能会有一定的变化; 2)同一个书写人的材料可能来源于不同笔的使用; 3)书写者的现实物理环境的变化会影响书写者的书写习惯; 4)每个书写者的笔迹材料数量与笔迹信息都非常有限.这对于机器学习方法建模离线笔迹鉴别任务是很大的挑战, 特别是对于深度卷积神经网络(Convolutional neural network, CNN)方法, 如何利用这有限的数据训练一个可靠的神经网络模型是巨大难题.对于笔迹鉴别存在的这些挑战, 早期的研究者们通常构造有效的手工特征方法对笔迹方向的角度、笔画的宽度等手写信息进行建模, 如用Gabor滤波器[6]与局部二值模式(Local binary patterns, LBP)[7]提取笔迹材料的纹理特征和基于文字的柱状图特征; 近期的研究者们充分利用卷积神经网络(CNN)的优势来自动提取特征[8-15], 不断地提高在一些标准数据集上的评测结果, 使得笔迹鉴别提升到新的台阶.

    当前的离线笔迹鉴别方法可归为两类:基于局部特征提取方法与基于全局特征提取方法.基于局部特征提取方法[8-12, 16-17]是对笔迹材料的局部结构、梯度、轮廓、几何特征等进行特征描述, 并通过编码方式将局部特征编码为全局特征.基于全局特征提取方法[7, 18-22]直接对原始的笔迹材料进行全局的特征提取, 然后将提取的全局特征作为鉴别的依据.当然, 也有研究者将局部特征与全局特征组合起来构建更为强大的特征以提高鉴别效果[23].由于局部特征方法能有效地解决小样本问题, 提高算法对笔迹材料的局部信息的特征提取, 所以近几年来, 基于局部特征提取方法得到更大地重视, 而本文的方法亦是基于局部特征提取方法.局部特征提取方法的关键步骤有如下几步: 1)将原始笔迹材料分成小的像素块; 2)对这些小的像素块进行特征提取; 3)通过全局编码方法将局部特征编码为全局特征向量.其中前两个过程是最为根本的两个步骤, 它体现了整体模型的泛化能力. Christlein等[24]探讨了编码方式对笔迹鉴别的影响, 同时强调了前两个基本步骤的重要意义.

    当前大部分的局部特征提取方法都是依赖于尺度不变特征变换(Scale-invariant feature transform, SIFT)[11-12, 24]、加速鲁棒性特征(Speed up robust features, SURF)等方法来提取局部像素块, 但是此方法需要组合编码能力强的编码方式(Fisher vectors, Vector of locally aggregated descriptors (VLAD)[12], Gaussian mixture model (GMM)[11]等)才能取得较好的鉴别结果。而另外的一种是基于文档行分割的方式将原始笔迹材料分割成小的像素块[8, 10]. Fiel等[8]首次提出了基于行分割的方式并组合caffenet提取局部特征, 随后通过取均值的编码方式将每张笔迹材料的局部特征编码为全局特征, 在ICDAR2011[25]和CVL[26]标准数据集上取得当时最好的结果.他使用Deim等[27]提出的行分割方法对笔迹材料进行分割, 用归一化方法纠正歪斜的行文本, 并进行数据增强.由于此模型使用的行切割方法对笔迹粘连或笔迹位于上下两行中间位置的笔迹材料切割的不准确性, 以及8层架构的caffenet的特征学习能力不强等问题, 在ICADRAR2013[3]这一多语言的高挑战性数据集上的表现并不理想. Xing等[10]提出基于新的像素扫描策略与数据增强并组合多流并行CNN的方法, 在IAM[28]和HWDB[29]两个标准数据集上用少量的笔迹信息分别取得99.01 %和97.03 %的识别率[10].

    虽然当前基于局部特征提取的离线笔迹鉴别方法取得很好的成果, 但它们在笔迹检索任务中还过度依赖于数据增强和编码方式, 在笔迹识别任务中需要较多的笔迹信息方可取得较高的识别率.主要由以下两个原因造成: 1)当前基于局部特征提取的离线笔迹鉴别方法的数据预处理提取的小像素块不准确, 使得很多完整的笔迹信息被错误分割; 2)当前基于局部特征提取的离线笔迹鉴别方法的识别模型的表征能力不足, 使得学习的特征还不能充分适应笔迹识别任务.这两个因素直接导致了模型提取的局部特征的鲁棒性和泛化能力差.

    为解决以上问题, 并且鉴于图像分割方法准确性[27, 30-32]和CNN在笔迹鉴别领域的成功应用, 我们提出了一种基于统计的文档行分割与深度卷积神经网络方法(Document line segmentation-convolutional neural network, DLS-CNN).利用基于统计的文档行分割方法分割的准确性以及深度神经网络的强学习能力, 学习具有强鲁棒性的局部特征, 使得模型在笔迹检索任务中无需依赖于数据增强并通过取均值的编码方式就能够取得不错的鉴别效果, 在笔迹识别中仅需要少量的笔迹信息即可对笔迹进行较好地识别.在ICDAR2013[3]与CVL[26]两个标准数据集上实验结果表明: 1) DLS-CNN相较于其他相似方法提取的局部特征具有更强的鲁棒性; 2) DLS-CNN只需要极少的笔迹信息就能对笔迹进行较好的识别, 模型具有较强的泛化能力.

    本文第1节对我们提出的方法进行详细的描述; 第2节给出在两个标准数据集上的实验结果与分析; 最后, 第3节对本文进行总结与展望.

    DLS-CNN (Document line segmentation-convolutional neural network)通过基于统计的文档行分割与深度卷积神经网络的方法提取更具有鲁棒性的局部特征, 以提高笔迹鉴别模型的鉴别能力和泛化能力, 模型的整体结构如图 1所示, 具体步骤如下: 1)用基于统计的文档行分割方法将原始笔迹材料进行文档行分割; 2)通过滑动窗口法将所有的行无重叠地切割成所需要尺度的小像素块; 3)用修改和优化过的残差神经网络(ResNet-50)对这些准备好的小像素块进行训练; 4)用训练好的模型对测试数据进行局部特征提取; 5)将对应笔迹材料的所有局部特征取均值并计算余弦相似度作为后续检索评估的依据.其中, 笔迹的识别只需要前3个步骤, 笔迹检索为DLS-CNN的整个过程.

    图 1  DLS-CNN框架图
    Fig. 1  The framework of DLS-CNN

    基于统计的文档行分割方法先由Arivazhagan等[30]提出解决文档行分割的问题.此方法最大的优点就是对于行倾斜的文档亦能准确地将文档按行进行切割.但是此方法有两个缺点:第一, 当文档的笔迹分布于纸张的右侧时, 由于此算法找不到候选分割行而无法实现行分割; 第二, 当文档的上下行有较多的笔迹粘连或笔迹位于上下两行中间位置时, 由于笔迹成分确定算法的时间复杂度高, 使得其需要较长的时间来确定笔迹成分的归属.为此, 我们对此方法做进一步的改进, 在保证算法准确进行行分割的同时拟解决以上两个问题.基于统计的文档行分割方法包括如下几个过程. 1)通过OTSU阀值法将图像二值化并获取文档笔迹轮廓投影映射; 2)依据一张文档垂直方向投影映射的柱状图和自适应阀值的左右相邻柱状图低谷连接获取候选行; 3)用二元混合高斯密度法将文档上下行成分进行确定; 4)最后获取笔迹材料的行.此算法的核心部分为步骤2)和3).步骤2)的关键是设计有效的函数寻找投影映射的柱状图低谷与高峰, 本文将垂直方向的投影映射的柱状图分为20块.步骤3)使用二元混合高斯模型对文档上下行有粘连笔迹或笔迹位于上下两行中间的成分进行确定, 这有助于将文档进行更加准确的文档行分割.以下将详细描述如何通过二元混合高斯密度法对文档行成分进行建模.我们使用前景像素的$ {x, y} $坐标获取行成分的充分统计量$ {\pmb \mu}_A $, $ {\pmb \mu}_B $, $ \Sigma_A $, $ \Sigma_B $(分别表示$ A $, $ B $行的像素成分的均值向量与协方差矩阵)进行二元混合高斯密度建模.计算$ A $行的第$ N+1 $个像素时, $ A $行像素成分的均值向量如式(1)所示:

    $$ \begin{equation} {\pmb \mu}_{A(N+1)} = \frac{N-1}{N}\cdot{\pmb \mu}_{A(N)}+\frac{1}{N}\cdot p_{N+1} \end{equation} $$ (1)

    其中, $ N $为当前已经计算过的成分数量, $ p_{(N+1)} = \{x_{N+1}, y_{N+1}\} $为第$ N+1 $个像素.计算$ A $行的第$ N+1 $个像素时, $ A $行像素成分的协方差矩阵如式(2)所示:

    $$ \begin{align} \Sigma_{A(N+1)} = &\frac{N-1}{N}\cdot \Sigma_{A(N)}+\frac{1}{N}\cdot\\ & (p_{N+1}-{\pmb \mu}_{A(N+1)}) (p_{N+1}-{\pmb \mu}_{A(N+1)})^{\rm T} \end{align} $$ (2)

    因此, $ A $行的第$ i $个像素成分的二元高斯密度如式(3)所示:

    $$ \begin{equation} P(p_i|{\pmb \mu}_A, \Sigma_A) = |2 \pi \Sigma_A|^{\frac{1}{2}}(p_i-{\pmb \mu}_A) \Sigma_A^{-1}(p_i-{\pmb \mu}_A)^{\rm T} \end{equation} $$ (3)

    最后, $ A $行的像素成分概率如式(4)所示:

    $$ \begin{align} &P(C|{\pmb \mu}_A, \Sigma_A) = P(p_1|{\pmb \mu}_A, \Sigma_A)\cdot P(p_2| {\pmb \mu}_A, \Sigma_A, p_1) \\ &\qquad \cdots P(p_N| {\pmb \mu}_A, \Sigma_A, p1, p2, \cdots, p_{N-1}) \end{align} $$ (4)

    同理, $ B $行的像素成分概率与$ A $行的计算方式相似.最终我们依据上下两行的像素成分概率来确定像素属于哪一行的成分. ICDAR2013的$ 029\_1 $和$ 002\_4 $样本的文档行分割结果如图 2所示, 图 2 (a)为模型最终确定的两个样本文档行分割的结果, 图 2 (b)为样本$ 029\_1 $被分割后形成的行笔迹材料.

    图 2  文档行分割样例
    Fig. 2  The example of document line segmentation

    在完成笔迹材料的行切割之后, 将所有的行笔迹归一化, 然后做进一步的切割.使用滑动窗口法, 依据所需要的尺度(图像宽度像素值)进行无重叠地切割.由于尺度为64像素与256像素提取的像素块保留更完整的"字母"级与"单词"级笔迹, 所以实验中分别用到的尺度为64像素尺度与256像素尺度.对于64尺度切割的像素块, 进一步用空白像素填充法将其扩充为256 $ \times $ 256大小的像素块, 而对于256尺度切割的像素块, 则无需做进一步处理, 因为后续的特征提取网络的输入尺度为224 $ \times $ 224.最后再剔除对模型特征提取产生噪声的空白像素块和含笔迹信息较少的像素块(如只有一个点).最终处理好的像素块如图 3 (b)图 3 (c)所示, 图 3 (b)为64尺度切割的像素块, 图 3 (c)为256尺度切割的像素块.对比其他用于笔迹鉴别的方法[11]提取的小像素块, 当上下行笔迹粘连或笔迹位于上下两行中间位置时(如笔迹中含有字母$ g, y, f $等字母), 传统方法则不能较好的分割, 使得很多完整笔迹成分被错误分割, 如图 3 (a)所示.

    图 3  分割好的像素块
    Fig. 3  The segmented patches

    深度残差神经网络(ResNet)由He等[33]提出, 他们将网络引入残差学习单元保护了输入信息的完整性, 使得随着网络的加深模型不会出现退化的现象, 而是进一步提升学习能力.他们在ILSVRC和COCO2015比赛中的目标定位、分割、识别、探测任务中均取得第一名的优异成绩.随后, 他们进一步探索深度残差神经网络的学习能力, 并通过实验表明残差神经网络是当前特征学习能力最强的网络模型[34]. Christlein等[24]也通过实验表明残差神经网络在笔迹鉴别任务中比其他网络具有更强的表征能力.为此, 在此模型中采用ResNet学习局部特征.为了平衡时间复杂度、资源消耗与学习效率, 我们使用ResNet-50这个模型框架.由于笔迹识别任务的特殊性, 将ResNet-50做了相应的优化和改进, 其结构组成如表 1所示.为了获取更具全局性与鲁棒性的局部特征, 我们将原始的平均池化层改为全局池化层.此外, 由于训练集相对较小与网络较深的原因, 我们在全连接层后面添加了relu激活特征层与dropout层, 并将dropout率设置为0.5, 以增强模型的正则化, 防止过拟合.在笔迹检索任务中, 学习率初始设置为0.1, 并在训练30步后将其降为0.01;在笔迹识别任务中, 学习率初始设置为0.1, 训练20步之后将其缩小为0.02, 在训练30步之后, 进一步将其缩小为0.01.模型的输入图像大小为224 $ \times $ 224, 梯度下降的动量因子设置为0.9, softmax层的大小设置应根据任务(笔迹识别、笔迹检索)与数据集而定.我们在ICDAR2013数据集上做笔迹检索任务时, 将其大小设置为100;而在CVL数据集上做笔迹识别任务时, 我们将其大小设置为310.

    表 1  ResNet-50结构
    Table 1  The structure of ResNet-50
    Layer name Layers Output size
    Conv1 7 $\times$ 7, 64, Stride 2 112 $\times$ 112
    Conv2-x1 3 $\times$ 3 Max pool, Stride 2 56 $\times$ 56
    Conv2-x2 $\left[\begin{array}{c} 1 \times 1, 64\\ 3 \times 3, 64 \\ 1 \times 1, 256\end{array}\right] \times 3$ 56 $\times$ 56
    Conv3-x $\left[\begin{array}{c} 1 \times 1, 128 \\ 3 \times 3, 128 \\ 1 \times 1, 512\end{array}\right] \times 4$ 28 $\times$ 28
    Conv4-x $\left[\begin{array}{c} 1 \times 1, 256 \\ 3 \times 3, 256 \\ 1 \times 1, 1 024 \end{array}\right] \times 6$ 14 $\times$ 14
    Conv5-x $\left[\begin{array}{c} 1 \times 1, 512 \\ 3 \times 3, 512 \\ 1 \times 1, 2 048 \end{array}\right] \times 3$ 7 $\times$ 7
    Global average pool 1 $\times$ 1
    Fc, Relu, Dropout, Softmax 1 $\times$ 1
    下载: 导出CSV 
    | 显示表格

    对于笔迹检索任务, 需将测试集中的小像素块进行局部特征提取.本文分别对全局池化层与全连接层的特征进行了不同特征数(128, 512, 1 024, 2 048)的提取, 以寻找模型最佳局部特征.在特征提取过程中, 残差神经网络的最后一层可以舍弃.随后, 将提取的局部特征进行PCA白化处理, 以降低特征维度和降解特征间的相互关系.这个白化操作被证明在笔迹与图像检索中具有积极作用[35-36].

    特征编码作为基于局部特征提取的笔迹检索中必不可少的一步, 对笔迹检索的提升具有重大意义. Christlein等[24]通过实验表明编码能有效促进笔迹检索效果, 并且编码方式有优劣之分.当前应用于笔迹鉴别的编码方式有很多, 如取均值法[8]、Fisher Vectors编码法[37]、GMM编码法[11, 38]、VLAD编码法[12, 24]等, 其中后三种编码方式是最有效的编码方式, 这几种编码方式充分利用局部特征的相关信息对笔迹检索效果的促进作用较大.而取均值法由于信息损失过多, 使得其编码效果得不到较好的提升.但本文为了验证DLS-CNN模型的学习能力与检验提取的局部特征的鲁棒性, 并与Fiel等[8]提出的模型进行有效对比, DLS-CNN型采用和Fiel等[8]一致的取均值的编码方式.这种取均值的方式是将一份原始笔迹材料的所有小像素块的特征向量的均值作为这份原始笔迹材料的全局特征.因此第$ j $份原始笔迹材料的全局特征$ {\pmb V}_j $为:

    $$ \begin{equation} {\pmb V}_j = \frac{1}{N} \sum \limits_{i = 1}^{N}{\pmb x}_i^{(j)} \end{equation} $$ (5)

    其中, $ N $为第$ j $份原始笔迹材料的小像素块数量, $ {\pmb x}_i^{(j)} $为第$ j $份原始笔迹材料的第$ i $个小像素块的特征向量.因为当模型使用信息损失较大的编码方式都能取得较好的效果时, 说明该模型学习的局部特征具有更强鲁棒性与泛化能力.随后, 将编码好的全局特征求取待查询笔迹文档的余弦相似度作为检索标准.

    由于ICDAR2013[3]和CVL[26]这两个具有挑战性的多语言标准数据集都是近些年笔迹鉴别研究使用最多的数据集之一, 故我们同时使用这两个标准数据集评估DLS-CNN提取特征的强鲁棒性和模型的学习能力.其中, 我们在ICDAR2013数据集上做笔迹检索任务, 在CVL数据集上做笔迹识别任务.

    为评估模型的鲁棒性与泛化能力, 我们使用平均准确率均值(Mean average precision, mAP)、Soft top-$ k $、Hard top-$ k $三个评估标准用于笔迹检索任务中, 这几个评估标准是广泛应用于信息检索任务的标准.我们使用Top-$ k $评估标准用于笔迹识别任务中.

    平均准确率均值: mAP是平均准确率的均值, 其是反映模型在所有相关文档上的性能指标.假设我们有$ N $个待查询笔迹材料, 则第$ i $个查询笔迹材料的平均准确率$ AP(i) $为:

    $$ \begin{equation} AP_{(i)} = \frac{\sum \limits_{k = 1}^{M}P(k)\cdot rel(k)}{R} \end{equation} $$ (6)

    其中, $ M $表示查询库(待查询笔迹材料库)中的笔迹材料数量, 此论文中, 我们将数据集ICDAR2013的测试集作为一个查询库. $ R $表示查询库中与第个查询笔迹材料相关(同一笔迹)的文档总数. $ P(k) $表示查询结果中前$ k $个结果的准确率, 即前$ k $个查询结果中出现相关笔迹材料的个数与$ k $的比值. $ rel(k) $是一个指示函数, 如果第$ k $个查询结果是相关文档, 则其值为1, 否则为0.从而mAP定义为:

    $$ \begin{equation} {\rm mAP}\; = \; \frac{1}{N} \sum \limits_{i = 1}^{N}AP(i) \end{equation} $$ (7)

    Soft top-$ {\pmb k } $ 与Hard top-$ {\pmb k} $: Soft top-$ k $ (S-$ k $)的评估方法与累计匹配特性值(Cumulative matching characteristic, CMC)等价, 其表征模型在单个相关文档上的性能指标.当每次查询的前$ k $个查询结果含有一个(及以上)相关文档时, 我们将其定义为一次正确查询, Soft top-$ k $表示为所有正确查询的次数与总查询次数的百分比.而在Hard top-$ k $ (H-$ k $)评估标准中, 当返回的前$ k $个查询结果全是相关文档时, 我们将其定义为一次正确查询, Hard top-$ k $表示为正确的查询次数与总查询次数的百分比, 其刻画模型在多个相关文档上的性能指标.很明显, Soft top-$ k $随着$ k $的值增加而升高, Hard top-$ k $随着$ k $的值增加而降低.

    Top-$ {\pmb k} $: Top-$ k $评估指标用于笔迹识别任务, 与Soft top-$ k $评估指标意义一致, 都是反应模型在单个相关文档上的性能指标.当每次识别的前$ k $个最相似的类中含有与目标类一致的类, 我们将其定义为一次正确识别, 则Top-$ k $表示为所有正确识别的次数与总识别次数的百分比.

    ICDAR2013[3]标准数据集的训练集和测试集分别包含了100和250个书写者的笔迹材料, 每个书写者贡献4张笔迹材料, 其中2张的笔迹内容为英语, 另外两张为希腊语.由于混合语言, 这个数据集的笔迹识别具有较大的挑战.对数据集分别进行64与256尺度的像素切割之后, 64尺度切割的小像素块数量为:训练集70 911个, 测试集218 999个; 256尺度切割的小像素块数量为:训练集21 160个, 测试集64 820个.我们分别对这两个尺度切割的数据进行了实验, 结果如表 2所示.结果显示:基于词级别大小数据提取的特征比基于字母级别大小数据提取的特征, 在所有的指标上均取得更好的表现, 表明基于词级别大小的数据更适合于DLS-CNN, 因为基于词级别大小的数据包含更多的完整笔迹.并且, 256尺度切割的像素块比64尺度切割的像素块少, 使得模型在256尺度的数据上进行实验的运行时间相对较短.为此, 接下来的所有实验均基于256尺度切割的数据.

    表 2  不同像素块大小的对比(%)
    Table 2  Comparison of different patch sizes (%)
    S-1 S-5 S-10 H-2 H-3 mAP
    64尺度 87.8 94.7 97.0 57.3 36.7 76.5
    256尺度 $\textbf{95.0}$ $\textbf{98.4}$ $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$
    下载: 导出CSV 
    | 显示表格

    此外, 我们探讨了不同特征层提取特征的表现能力.在实验中分别提取了全局池化层与全连接层的特征作为局部特征, 实验结果如表 3所示.结果显示:全连接层提取的特征仅Soft top-1指标比全局池化层提取的特征表现差, 在其他的指标中都有更加优异的表现.这主要归因于: 1)全连接层提取的特征对前面层的特征进一步的抽象成为高阶的描述特征, 更能全局地描述输入图像的特点; 2)分类层以全连接层的特征作为分类的依据, 分类层所产生的损失将直接作用于全连接层, 使得全连接层更能体现分类信息.在此基础上, 我们对提取的特征数做了进一步的探讨, 分别对128, 512, 1 024, 2 048个特征数目进行了实验.实验表明, 当取512个特征数时, 模型具有更好的表现, 并且模型所需的训练时间与检索时间也相对较短, 结果如表 4所示.

    表 3  不同特征层的对比(%)
    Table 3  Comparison of different feature layers (%)
    S-1 S-5 S-10 H-2 H-3 mAP
    全局池化层 $\textbf{95.4}$ 97.9 98.5 63.1 41.2 79.7
    全连接层 95.0 $\textbf{98.4}$ $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$
    下载: 导出CSV 
    | 显示表格
    表 4  特征数目的对比(%)
    Table 4  Comparison of feature numbers (%)
    S-1 S-5 S-10 H-2 H-3 mAP
    128 95.2 $\textbf{98.7}$ 99.0 70.1 48.6 84.3
    512 95.0 98.4 $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$
    1 024 95.0 98.4 99.0 70.0 48.8 84.1
    2 048 $\textbf{96.0}$ 98.4 98.6 67.1 45.8 83.0
    下载: 导出CSV 
    | 显示表格

    在DLS-CNN模型中, 主成分分析也对模型产生了积极作用, 我们将提取95 PCA白化不仅提高模型的泛化能力, 而且还通过压缩特征节约了笔迹检索时间, 结果如表 5所示.

    表 5  PCA白化的评估(%)
    Table 5  Evaluation of PCA$\_$Whitening (%)
    S-1 S-5 S-10 H-2 H-3 mAP
    无PCA白化 88.9 97.1 98.0 63.9 47.6 82.1
    有PCA白化 $\textbf{95.0}$ $\textbf{98.4}$ $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$
    下载: 导出CSV 
    | 显示表格

    最后, 也将DLS-CNN与其他当前表现较好的相似模型进行对比.特别是与Fiel等[8]提出的模型对比, 因为DLS-CNN的处理过程与Fiel等提出的模型最为相似.由于Fiel等提出的方法对于上下行粘连的笔迹和位于上下行中间的笔迹不能正确分割, 使得其在更具挑战性的ICDAR2013数据集上的鉴别表现不佳.实验结果显示, 我们提出的模型在大部分的评估指标都取得明显更优的表现, 并且在Hard top-2与Hard top-3上分别有29.8说明DLS-CNN弥补了基于行分割与CNN模型的不足.此外, DLS-CNN模型与Christlein等[24]提出的模型在同样使用取均值编码的情况下进行对比, DLS-CNN在Soft top-1与mAP两个评估指标上分别提升了8.2表明基于统计的文档行分割与深度卷积神经网络的笔迹鉴别方法的模型能学得更具鲁棒性的特征, 具有更强的泛化能力.但是我们提出的方法在Soft top-$ k $的指标上并没有取得更加优异的表现.我们通过进一步实验找出那些未能正确查询的笔迹材料, 发现我们的方法对粗笔所写的笔迹材料识别效果差.细笔/粗笔像素块的样例如图 3 (c)所示.可能原因有以下两个: 1)由于数据集中粗笔写的笔迹材料极少, 导致模型不能较好地学习粗笔所写笔迹材料的相应特征; 2)由于粗笔所写笔迹材料不能较好地被正确分割, 使得所获取的像素块不能保留更多完整的笔迹信息.具体实验对比如表 6所示.

    表 6  与其他模型的对比(%)
    Table 6  Comparison with other models (%)
    S-1 S-5 S-10 H-2 H-3 mAP
    CS-UMD-a[3] 95.1 98.6 99.1 19.6 7.1 N/A
    CS-UMD-b[3] 95.0 98.6 99.2 20.2 8.4 N/A
    HIT-ICG[3] 94.8 98.0 98.3 63.2 36.5 N/A
    TEBESSA-a[3] 90.3 96.7 98.3 58.2 33.2 N/A
    TEBESSA-b[3] 93.4 97.8 98.5 62.6 36.5 N/A
    Christlein[11] 97.1 98.8 99.1 42.8 23.8 67.7
    Wu[9] 95.6 98.6 99.1 63.8 36.5 N/A
    Nicolaou[14] $\textbf{97.2}$ $\textbf{98.9}$ 99.2 52.9 29.2 N/A
    Fiel[8] 88.5 96.0 98.3 40.5 15.8 N/A
    Christlein[24] 86.8 N/A N/A N/A N/A 78.9
    DLS-CNN 95.0 98.4 $\textbf{99.3}$ $\textbf{70.3}$ $\textbf{49.5}$ $\textbf{84.7}$
    下载: 导出CSV 
    | 显示表格

    CVL[26]数据集的训练集与测试集分别包含27与283个书写者, 在训练集与测试集中每个书写者分别贡献7份与5份笔迹材料, 每个书写者写一份德语笔迹材料, 其他均为英语笔迹材料.在实验中, 在训练集中每个作者取5份与测试集笔迹材料内容相同的笔迹材料.最终将310位书写者贡献的1 550份笔迹材料用256尺度分割成153 315个小的像素块, 并按8:1:1的比例分为训练集、验证集和测试集.在此数据集上, 为了检验模型在笔迹识别任务的鲁棒性与泛化能力, 我们直接对256尺度大小的小像素块进行训练与测试.

    实验结果如图 4所示.当训练步数达到35步之后, DLS-CNN的识别率基本稳定, Top-1的最高识别率为95.8由于前20步的学习率较大, 使得模型不易收敛并且未找到较好的局部最优点, 在20步后将学习率缩小5倍, 模型相对比较稳定, 在30步之后进一步将学习率缩小2倍, 模型慢慢收敛并趋于稳定.具体结果如图 4所示, 图 4 (a)表示Top-1的识别率, 图 4 (b)表示Top-5的识别率.与当前在CVL数据集获得识别率效果最好的算法的相比, DLS-CNN仅以一个256尺度大小的像素块在Top-5的识别率相较于其他基于1整张笔迹材料的Top-5识别率从99.8取得当前最高的识别率, 如表 7所示.但我们的方法在Top-1评估指标上的表现不理想, 原因在于我们的方法对粗笔所写的笔迹材料不能提取比较有效的特征对其进行更好地识别.实验表明, DLS-CNN能够以很少量的笔迹信息对笔迹进行较准确地识别, 体现了DLS-CNN能在笔迹识别任务中具有较强的鲁棒性与泛化能力.

    图 4  256尺度大小的识别率
    Fig. 4  The identification rate of 256 patch size
    表 7  与其他模型的对比(%)
    Table 7  Comparison with other models (%)
    输入笔迹材料 Top-1 Top-5
    TSINGHUA[26] 1页 97.7 99.0
    Fiel[8] 1页 98.9 99.3
    Wu[9] 1页 99.2 99.5
    Nicolaou[14] 1页 99.0 99.4
    Christlein[38] 1页 99.4 N/A
    Tang[13] 1页 $\textbf{99.7}$ 99.8
    DLS-CNN 256像素块 95.8 $\textbf{99.9}$
    下载: 导出CSV 
    | 显示表格

    本文提出了一种基于统计的文档行分割与深度卷积神经网络结合的离线笔迹鉴别方法, 以学习具有强鲁棒性的局部特征和较强泛化能力的模型为目标, 解决了其他基于局部特征的笔迹鉴别方法提取的局部特征过度依赖数据增强与全局编码的问题和模型泛化能力不足的问题.这得益于基于统计的文档行分割方法进行文档行分割的准确性, 以及改进的残差神经网络强学习能力的优越性.在ICDAR2013与CVL两个含多语言的标准数据集上的实验结果表明了DLS-CNN是一种具有强鲁棒性的离线笔迹鉴别方法.

    在未来的工作中, 基于统计的文档行分割方法可以做进一步的改进, 通过更有效的方法对柱状图低谷和高峰进行更准确的确定, 使得模型在初始行的寻找更加准确, 从而得到更加精确的行分割.在实验中发现该模型对于粗笔写的笔迹材料不能较好的鉴别, 致使我们提出的方法不能在Soft top-$ k $指标上取得较好的表现, 我们将对此问题做更进一步的研究.此外, 寻求一种合适的正则化方法对CNN模型进行正则化, 防止模型的过拟合且使模型更加稳定, 并在多个包含其他语言(中文、拉丁文、法语等)的数据集上对模型做进一步的验证.

  • 图  1  本文提出的基于自适应稀疏变换的指纹图像压缩算法框架

    Fig.  1  The framework of the proposed fingerprint image compression algorithm via adaptive sparse transformation

    图  2  本文算法低频预测图像(a)与K-SVD-SR 算法低频图像 (b)块效应对比

    Fig.  2  The comparison of low-frequency predicted image between the proposed algorithm (a) and the K-SVD-SR algorithm(b)

    图  3  块间像素预测对最终编解码效果的影响

    Fig.  3  The effect of inter-block pixel prediction on the final codec

    图  4  灰度平均值的三种编码方向模式

    Fig.  4  The three coding direction modes for grayscale average

    图  5  分块尺寸分别为6× 6、7× 7、8× 8、9×9的率失真性能比较

    Fig.  5  The comparison of rate distortion performance between the blocks with the size of 6× 6,7× 7,8× 8,and 9× 9

    图  6  (a)~(d) 分别表示测试图像库中的数据库2~5在四种压缩算法下的平均率失真性能

    Fig.  6  The (a),(b),(c),(d) respectively denotes the average rate distortion performance of the test image library Database2,Database3,Database4,and Database5 at 4 compression algorithms

    图  7  从左至右分别表示原始图像和码率同为0.1 bpp的JPEG、JPEG2000、K-SVD-SR和本文算法的解码图像

    Fig.  7  From left to right respectively represents the original image and the decoded image of JPEG,JPEG2000,K-SVD-SR,and the proposed algorithm at the same rate as 0.1 bpp

    图  8  稀疏度自适应选择与固定稀疏度L=2、6、10、14对比

    Fig.  8  The contrast of the adaptive sparsity and the fixed sparsity of L=2,6,10,14

    图  9  MP与QOMP算法对比

    Fig.  9  The contrast of MP algorithm and QOMP algorithm

    图  10  两种量化模式对图像压缩性能的影响比较

    Fig.  10  The comparison of the impact on image compression performance between the two quantization modes

    图  11  “索引-权值”编码模式与“原子个数-索引-权值”编码模式对比

    Fig.  11  The contrast of the "index-weight" encoding mode and the "number of atoms-index-weight" encoding mode

    图  12  基于AGR的图像解码与K-SVD-SR的 直接解码对比

    Fig.  12  The contrast of the image decoding based on AGR and the direct decoding of K-SVD-SR

    图  13  测试图像库数据库2在四种压缩算法下的\\图像的平均特征匹配率

    Fig.  13  The average image feature matching rate of the test image library Database 2 at 4 compression algorithms

    表  1  四种压缩算法的时间复杂度比较 (s)

    Table  1  The comparison of time complexity about 4 compression algorithms (s)

    码率 (bpp) 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
    JPEG0.160.160.160.160.170.170.170.170.17
    JPEG20000.080.080.080.080.070.080.080.080.08
    K-SVD-SR1.261.742.202.643.193.614.134.494.89
    本文算法2.132.803.262.884.534.955.835.766.84
    下载: 导出CSV
  • [1] Pennebaker W B, Mitchell J L. JPEG:Still Image Data Compression Standard. US:Springer, 1993. http://cn.bing.com/academic/profile?id=1540900967&encoded=0&v=paper_preview&mkt=zh-cn
    [2] Marcellin M W, Gormish M J, Bilgin A, Boliek M P. An overview of JPEG-2000. In:Proceedings of the 2000 Data Compression Conference. Snowbird, UT:IEEE, 2000.523-541
    [3] Bradley J N, Brislawn C M, Hopper T. FBI wavelet/scalar quantization standard for gray-scale fingerprint image compression. In:Proceedings of the SPIE 1961, Visual Information Processing Ⅱ. Orlando, FL:SPIE, 1993.293-304
    [4] Skodras A, Christopoulos C, Ebrahimi T. The JPEG 2000 still image compression standard. IEEE Signal Processing Magazine, 2001, 18(5):36-58 doi: 10.1109/79.952804
    [5] Shao G, Wu Y, Yong A, Liu X, Guo T. Fingerprint compression based on sparse representation. IEEE Transactions on Image Processing, 2014, 23(2):489-501 doi: 10.1109/TIP.2013.2287996
    [6] Olshausen B A, Field D J. Sparse coding with an overcomplete basis set:a strategy employed by V1? Vision Research, 1997, 37(23):3311-3325 doi: 10.1016/S0042-6989(97)00169-7
    [7] Emmanuel B, Mu'Azu M, Sani S, Garba S. A review of wavelet-based image processing methods for fingerprint compression in biometric application. British Journal of Mathematics and Computer Science, 2014, 4(19):2781-2798 doi: 10.9734/BJMCS
    [8] Qian C, Xu Z. Robust visual tracking via sparse representation under subclass discriminant constraint. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(7):1293-1307 doi: 10.1109/TCSVT.2015.2424091
    [9] Sun B, Liu Z, Sun Y, Su F, Cao L, Zhang H. Multiple objects tracking and identification based on sparse representation in surveillance video. In:Proceedings of the 2015 IEEE International Conference on Multimedia Big Data (BigMM). Beijing, China:IEEE, 2015.268-271
    [10] Cheng M, Wang C, Li J. Single-image super-resolution in RGB space via group sparse representation. Iet Image Processing, 2015, 9(6):461-467 doi: 10.1049/iet-ipr.2014.0313
    [11] Tropp J A. Greed is good:algorithmic results for sparse approximation. IEEE Transactions on Information Theory, 2004, 50(10):2231-2242 doi: 10.1109/TIT.2004.834793
    [12] Mallat S G, Zhang Z F. Matching pursuits with time-frequency dictionaries. IEEE Transactions on Signal Processing, 1993, 41(12):3397-3415 doi: 10.1109/78.258082
    [13] Pati Y C, Rezaiifar R, Krishnaprasad P S. Orthogonal matching pursuit:recursive function approximation with applications to wavelet decomposition. In:Proceedings of the 1993 Conference Record of the 27th Asilomar Conference on Signals, Systems, and Computers. Pacific Grove, CA:IEEE, 1993.40-44 http://cn.bing.com/academic/profile?id=185716565&encoded=0&v=paper_preview&mkt=zh-cn
    [14] Gharavi-Alkhansari M, Huang T S. A fast orthogonal matching pursuit algorithm. In:Proceedings of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing. Seattle, WA:IEEE, 1998.1389-1392 http://dl.acm.org/citation.cfm?id=1892575
    [15] Chen S S, Donoho D L, Saunders M A. Atomic decomposition by basis pursuit. SIAM Journal on Scientific Computing, 1998, 20(1):33-61 doi: 10.1137/S1064827596304010
    [16] Zhu J Y, Wang Z Y, Zhong R, Qu S M. Dictionary based surveillance image compression. Journal of Visual Communication and Image Representation, 2015, 31:225-230 doi: 10.1016/j.jvcir.2015.07.002
    [17] Setiawan A D, Suksmono A B, Mengko T L R, Gunawan H. Low-bitrate medical image compression. In:Proceedings of the ACA2011 IAPR Conference on Machine Vision Applications. Nara, Japan, 2011.544-547
    [18] Xu J, Pi Y, Ming R. SAR image compression based on sparse representation. In:Proceedings of the 11th International Radar Symposium (IRS). Vilnius, Lithuania:IEEE, 2010.1-4
    [19] Zhan X, Zhang R, Yin D, Huo C. SAR image compression using multiscale dictionary learning and sparse representation. IEEE Geoscience and Remote Sensing Letters, 2013, 10(5):1090-1094 doi: 10.1109/LGRS.2012.2230394
    [20] Aharon M, Elad M, Bruckstein A. K-SVD:an algorithm for designing overcomplete dictionaries for sparse representation. IEEE Transactions on Signal Processing, 2006, 54(11):4311-4322 doi: 10.1109/TSP.2006.881199
    [21] Anurakphanawan N, Lamsrichan P. Fingerprint recognition performance with WSQ, CAWDR, and JPEG2000 compression. In:Proceedings of the 6th International Conference of Information and Communication Technology for Embedded Systems (IC-ICTES). Hua-Hin, Thailand:IEEE, 2015.1-6
    [22] Fingerprint images[Online], available:http://pan.baidu.com/s/1i3KxQZV,November27,2015
    [23] Abraham J, Kwan P, Gao J B. Fingerprint matching using a hybrid shape and orientation descriptor. State of the Art in Biometrics. New York:InTech, 2011.
  • 期刊类型引用(6)

    1. 毛颖裕,张怡龙,王海霞. 基于多流卷积神经网络的中文笔迹鉴别研究. 高技术通讯. 2023(08): 849-859 . 百度学术
    2. 李新德,阿依夏木·力提甫,杨天,熊闻心. 基于词袋模型与几何不变特征的笔迹鉴别. 计算机应用与软件. 2022(07): 154-158+180 . 百度学术
    3. 阿依夏木·力提甫,鄢煜尘,肖进胜,江昊,姚渭箐. 基于混合码本与因子分析的文本独立笔迹鉴别. 自动化学报. 2021(09): 2276-2284 . 本站查看
    4. 何凯,马红悦,冯旭,刘坤. 基于改进VGG-16模型的英文笔迹鉴别方法. 天津大学学报(自然科学与工程技术版). 2020(09): 984-990 . 百度学术
    5. 贾建忠. 基于小波变换和CPN网络的手写签名鉴别. 计算机与现代化. 2020(07): 27-31 . 百度学术
    6. 贾建忠. 偏旁部首和笔画特征混合的离线中文笔迹鉴别. 信息技术. 2020(08): 60-64 . 百度学术

    其他类型引用(8)

  • 加载中
图(13) / 表(1)
计量
  • 文章访问数:  2545
  • HTML全文浏览量:  476
  • PDF下载量:  756
  • 被引次数: 14
出版历程
  • 收稿日期:  2015-12-07
  • 录用日期:  2016-03-10
  • 刊出日期:  2016-08-01

目录

/

返回文章
返回