2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种鲁棒的基于对抗结构的生物特征ROI提取方法

刘凤 刘浩哲 张文天 陈嘉树 沈琳琳 王磊

刘凤, 刘浩哲, 张文天, 陈嘉树, 沈琳琳, 王磊. 一种鲁棒的基于对抗结构的生物特征ROI提取方法. 自动化学报, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c200156
引用本文: 刘凤, 刘浩哲, 张文天, 陈嘉树, 沈琳琳, 王磊. 一种鲁棒的基于对抗结构的生物特征ROI提取方法. 自动化学报, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c200156
Liu Feng, Liu Hao-Zhe, Zhang Wen-Tian, Chen Jia-Shu, Shen Lin-lin, Wang Lei. A robust roi extraction method for biometrics using adversarial structure. Acta Automatica Sinica, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c200156
Citation: Liu Feng, Liu Hao-Zhe, Zhang Wen-Tian, Chen Jia-Shu, Shen Lin-lin, Wang Lei. A robust roi extraction method for biometrics using adversarial structure. Acta Automatica Sinica, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c200156

一种鲁棒的基于对抗结构的生物特征ROI提取方法


DOI: 10.16383/j.aas.c200156
详细信息
    作者简介:

    博士, 深圳大学助理教授, 西安电子科技大学学士、硕士, 在2014年, 获得香港理工大学计算机系的计算机科学博士学位. 主要研究方向为模式识别和图像处理以及相关技术在指纹领域中的应用. E-mail: feng.liu@szu.edu.cn

    深圳大学硕士研究生, 主要研究领域为计算机视觉和模式识别. E-mail: liuhaozhe2019@email.szu.edu.cn

    深圳大学硕士研究生, 主要研究领域为模式识别和生物特征识别. E-mail: zhangwentianml@gmail.com

    陕西科技大学本科生, 主要研究方向为计算机视觉与生物识别方向. E-mail: gaasyu.chan@gmail.com

    沈琳琳教授, 上海交通大学学士、硕士, 在诺丁汉大学获得博士学位. 现为深圳市“鹏城学者”特聘教授、英国诺丁汉大学计算机学院荣誉教授、澳门大学杰出访问学者; 广东省教育厅中英合作视觉信息处理实验室主任、深圳大学计算机视觉研究所所长、深圳大学医学影像智能分析与诊断研究中心主任. 研究方向主要为深度学习理论及其在人脸识别/分析以及医学图像分析上的应用. E-mail: llshen@szu.edu.cn

    副研究员, 博士生导师. 在西安电子科技大学获博士学位. 2011年至2012年期间就职于华为技术有限公司. 2014年至2015年在韩国仁川国立大学做博士后研究. 2016年加入中国科学院深圳先进技术研究院. 研究方向主要包括图像变换、计算机视觉、视觉语义理解、视频分析、深度学习等. E-mail: lei.wang1@siat.ac.cn

  • 基金项目:  国家自然科学基金(91959108, 61672357), 深圳市基础研究基金(JCYJ20190808163401646, JCYJ20180305125822769), 腾讯“犀牛鸟“深圳大学青年教师科学研究基金资助

A Robust ROI Extraction Method for Biometrics using Adversarial Structure

More Information
  • Fund Project:  Supported by the National Natural Science Foundation of China(61672357, 91959108), the Shenzhen Fundamental Research fund(JCYJ20190808163401646, JCYJ20180305125822769), Ten cent “Rhinoceros Birds”-Scientific Research Foundation for Young Teachers of Shenzhen University
  • 摘要: 感兴趣区域(Region of Interest, ROI) 提取在生物特征识别中, 常用于减少后续处理的计算消耗, 提高识别模型的准确性, 是生物识别系统中预处理的关键步骤. 针对生物识别数据, 本文提出了一种鲁棒的ROI提取方法. 方法使用语义分割模型作为基础, 通过增加全局感知模块, 与分割模型形成对抗结构, 为模型提供先验知识, 补充全局视觉模式信息, 解决了语义分割模型的末端收敛困难问题, 提高了模型的鲁棒性和泛化能力. 本文在传统二维(2D)指纹, 人脸, 三维(3D)指纹和指纹汗孔数据集中验证了方法的有效性. 实验结果表明, 相比于现有方法, 本文提出的ROI提取方法更具鲁棒性和泛化能力, 精度最高.
  • 图  1  基于PASCAL VOC 2011验证集的分割结果[2]. positive), 图像从左到右依次是, 原图, ROI的标签, 以及FCN[15]的分割结果. 第一行显示的案例是以马作为提取目标, 第二行显示的是飞行器提取案例.

    Fig.  1  Sample segmentation results[2] on the PASCAL VOC 2011 validation set. Columns(left to right): original images, ground-truth ROI, segmentations produced by FCN[15]. The first row shows the ROI extraction result for horse and the second row shows the result for aircraft extraction.

    图  2  拥有不同域信息的指纹图像: (a)指纹图像来自于FVCs[2123]. (b)是图像(a)的ROI区域. (c)指纹图像是来自数据集NIST 29[24]. (d)是(c)的ROI区域.

    Fig.  2  Samples of 2D Fingerprint images in different domains: (a). Images from FVCs[2123] (b). The labeled image of (a) marked with the ROI. (c). The fingerprints impressions in NIST29[24] (d). The artificial annotation for (c).

    图  7  基于全局损失函数的ROI提取模型

    Fig.  7  Overview of our proposed ROI extraction model.

    图  3  基于语义分割的ROI提取模型, 模型分为两部分: 基础网络和分割网络.

    Fig.  3  The flowchart of ROI extraction network based on semantic segmentation.

    图  4  在生物特征识别中, 基于语义分割的ROI提取模型存在的问题. 第一行是人脸提取的案例分析[35, 36], 第二行是指纹ROI提取的案例分析[2124].

    Fig.  4  ROI extraction issues we observe on biometrics cases. The first row shows the ROI extraction result for face[35, 36] and the second row presents the result for fingerprint ROI extraction[2124].

    图  5  像素级损失函数的失效情况, 分割结果(b)是分割结果(a)向左平移一个像素得到. 结果显示两个分割结果的交叉熵为264.80, L2为23.00.

    Fig.  5  Failure of pixel level loss functions: (a) translates one pixel to the left to get (b). Cross entropy between (a) and (b) is 264.80 and L2 is 23.00.

    图  6  基于对抗结构的全局损失模块的结构图

    Fig.  6  Adversarial structure based global perceptual loss module.

    图  8  3D指纹的横截面和对应ROI区域: (a). 标注了生物组织结构的指纹横截面图像 (b). 该横截面对应的ROI区域 (c). 指尖的生物结构[38].

    Fig.  8  An example of X-Z cross-section image labeled for 3D fingerprints:(a). The longitudinal(X-Z) fingertip image marked with biological structure. (b). The labeled image mark with the ROI. (c). Physical structure of human skin[38].

    图  9  ROI提取模型的收敛折线图. 第一行的评价指标为交并比, 第二行的评价指标为像素级准确率. 从左至右: 传统二维指纹的ROI提取, 人脸ROI提取和3D指纹ROI提取.

    Fig.  9  The convergent plots for ROI extraction model. The evaluation metric of first row is Mean IoU, that of second row is Pixel Acc..From left to right: 2D fingerprint, face and 3D fingerprint ROI extraction.

    图  10  不同训练次数下的2D指纹ROI, 人脸提取和3D指纹ROI的提取结果: 从左至右依次是不同的迭代次数的模型分割结果. 上面的一行是Baseline的分割结果, 下面的一行是本文方法的分割结果.

    Fig.  10  The Result for 2D fingerprint, face and 3D fingerprint ROI extraction with different iteration numbers. From left to right, there are the extraction results with different iteration numbers. The upper row corresponds to the extraction results of Baseline, and the lower row shows the results of the proposed method.

    图  11  人脸ROI提取和2D指纹ROI提取结果: 从左至右依次是原图, FCN, U-Net, PSPNet, Baseline和使用全局感知模块的ROI提取模型的结果. 第一行是人脸ROI提取的结果, 第二行是2D传统指纹的ROI提取结果.

    Fig.  11  The Result for face ROI extraction and 2D fingerprint ROI extraction. From left to right: the original image & the prediction of FCN, U-Net, PSPNet, Baseline and the proposed ROI extraction model using global perceptual loss module. The first row corresponds to face ROI extraction, and the second row shows the result of 2D traditional fingerprint ROI extraction.

    图  12  基于全局感知模块的3D指纹ROI提取结果: (a)原始的3D指纹图像[41]. (b)使用本文提出的方法, 针对(a)提取得到的ROI结果.

    Fig.  12  A set of images which show the ROI extraction result of our proposed method for 3D Fingerprint: (a). 3D fingerprint images obtained by OCT device[41]. (b). Effective structure of 3D fingerprint extracted by our proposed method.

    图  13  基于全局感知模块的汗孔提取结果: (a)原始的高精度指纹图像[14]. (b)使用本文提出的方法, 针对(a)提取得到的ROI结果.

    Fig.  13  The ROI extraction result of our proposed method for pore extraction: (a). High resolution fingerprint image[14]. (b). Fingerprint pores extracted by our proposed method.

    表  1  不同设置下的全局感知模块表现

    Table  1  Investigation of Global Perceptual Loss Module with Different Settings

    优化策略2D传统指纹(Pixel Acc.(%)/Mean IoU)人脸(Pixel Acc.(%)/Mean IoU)3D指纹(Pixel Acc.(%)/Mean IoU)
    本文方法Baseline本文方法Baseline本文方法Baseline
    损失函数IoU loss[2]92.07/0.863290.66/0.838092.05/0.857990.03/0.825496.97/0.885995.18/0.8640
    Lovasz loss[25]92.48/0.864893.14/0.882297.21/0.947596.71/0.938895.74/0.878895.69/0.8767
    L2 loss93.33/0.861389.33/0.821996.99/0.943496.90/0.942095.70/0.885094.14/0.8331
    CrossEntropy loss(base)92.58/0.860682.71/0.718097.06/0.942996.77/0.938996.13/0.897595.43/0.8719
    优化器AMSGrad[29]93.65/0.886392.39/0.867296.50/0.935396.17/0.928993.56/0.823090.45/0.7540
    Radam[30]92.72/0.869492.27/0.866596.72/0.939096.52/0.935095.77/0.880695.19/0.8676
    Adam(base)[27]92.58/0.860682.71/0.718097.06/0.942996.77/0.938996.13/0.897595.43/0.8719
    下载: 导出CSV

    表  2  2D指纹ROI提取实验结果

    Table  2  ROI Extraction Results of 2D Fingerprints

    FVCs vs. NIST29 Pixel Acc.(%)/MeanIoUNIST29 vs. FVCs Pixel Acc.(%)/MeanIoU平均值(Average) Pixel Acc.(%)/MeanIoU
    Mean and Variance based Method[13]76.71/0.685277.23/0.755176.97/0.7202
    Orientation based Method[12]75.37/0.753274.46/0.621374.92/0.6873
    Fourier based Method[13]65.45/0.634965.45/0.634965.45/0.6349
    PSPNet[17]87.74/0.800079.41/0.720983.58/0.7605
    FCN[15]87.20/0.793275.77/0.673681.49/0.7334
    U-Net[16]85.83/0.783976.46/0.725181.15/0.7545
    Baseline82.71/0.718073.12/0.734177.92/0.7261
    Baseline+Dense-CRF[48]90.33/0.783578.30/0.734784.32/0.7591
    本文方法92.58/0.860680.29/0.746986.44/0.8038
    本文方法+Dense-CRF94.67/0.885282.73/0.785288.70/0.8352
    下载: 导出CSV

    表  3  人脸提取案例实验结果

    Table  3  ROI Extraction Results of Face Images

    Pixel Acc(%). Mean IoU
    PSPNet[17] 93.62 0.8803
    FCN[15] 95.90 0.9212
    U-Net[16] 95.55 0.9147
    Baseline 96.77 0.9389
    Baseline+Dense-CRF[48] 95.77 0.9712
    本文方法 97.06 0.9429
    本文方法+Dense-CRF 96.41 0.9734
    下载: 导出CSV

    表  4  3D指纹的ROI提取结果.

    Table  4  ROI Extraction Results of 3D Fingerprints

    Pixel Acc.(%) Mean IoU
    PSPNet[17] 93.67 0.8296
    FCN[15] 94.62 0.8526
    U-Net[16] 94.82 0.8614
    Baseline 95.43 0.8719
    Baseline+Dense-CRF[48] 95.50 0.8718
    本文方法 96.13 0.8975
    本文方法+Dense-CRF 96.12 0.8898
    下载: 导出CSV

    表  5  指纹汗孔提取实验结果

    Table  5  Fingerprint Pore Extraction Results

    $ R_T$(%)$ R_F$(%)
    Gabor Filter[44]75.90(7.5)23.00(8.2)
    Adapt. Dog[14]80.80(6.5)22.20(9.0)
    DAPM[14]84.80(4.5)17.60(6.3)
    Xu等人[45]84.80(4.5)17.60(6.3)
    Labati等人[46]84.69(7.81)15.31(6.2)
    DeepPore[47]93.09(4.63)8.64(4.15)
    DeepPore$ ^*$96.33(6.57)6.45(17.22)
    Baseline97.48(9.63)7.57(5.85)
    本文方法98.30(9.2927)7.83(4.18)
    下载: 导出CSV
  • [1] Sergi Caelles, Kevis-Kokitsi Maninis, Jordi Pont-Tuset, Laura Leal-Taixe, Daniel Cremers, and Luc Van Gool. One-shot video object segmentation. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017.
    [2] Md Atiqur Rahman and Yang Wang. Optimizing intersection-over-union in deep neural networks for image segmentation. In International symposium on visual computing, pages 234–244. Springer, 2016.
    [3] Yunchao Wei, Jiashi Feng, Xiaodan Liang, Ming-Ming Cheng, Yao Zhao, and Shuicheng Yan. Object region mining with adversarial erasing: A simple classification to semantic segmentation approach. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017.
    [4] Xiaowei Xu, Qing Lu, Lin Yang, Sharon Hu, Danny Chen, Yu Hu, and Yiyu Shi. Quantization of fully convolutional networks for accurate biomedical image segmentation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
    [5] 刘青山, 卢汉清, 马颂德. 综述人脸识别中的子空间方法. 自动化学报, 2003, 29(6): 900−911

    LIU Qing-Shan, LU Han-Qing, MA Song-De. A Survey: Subspace Analysis for Face Recognition. ACTA AUTOMATICA SINICA, 2003, 29(6): 900−911
    [6] 高全学, 潘泉, 梁彦, 张洪才, 程咏梅. 基于描述特征的人脸识别研究. 自动化学报, 2006, 32(3): 386−392

    GAO Quan-Xue, PAN Quan, LIANG Yan, ZHANG Hong-Cai, CHENG Yong-Mei. Face Recognition Based on Expressive Features. ACTA AUTOMATICA SINICA, 2006, 32(3): 386−392
    [7] 王森, 张伟伟, 王阳生. 指纹图像分割中新特征的提出及其应用. 自动化学报, 2003, 29(4): 622−627

    WANG Sen, ZHANG Wei-Wei, WANG YangSheng. New Features Extraction and Application in Fingerprint Segmentation. ACTA AUTOMATICA SINICA, 2003, 29(4): 622−627
    [8] Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, and Nong Sang. Learning a discriminative feature network for semantic segmentation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
    [9] Chih-Yu Hsu, Chih-Hung Yang, and HuiChing Wang. Multi-threshold level set model for image segmentation. EURASIP Journal on Advances in Signal Processing, 2010, 2010(1): 950438 doi:  10.1155/2010/950438
    [10] Sima Taheri, Sim Heng Ong, and VFH Chong. Level-set segmentation of brain tumors using a threshold-based speed function. Image and Vision Computing, 2010, 28(1): 26−37 doi:  10.1016/j.imavis.2009.04.005
    [11] Anping Xu, Lijuan Wang, Sha Feng, and Yunxia Qu. Threshold-based level set method of image segmentation. In 2010 Third International Conference on Intelligent Networks and Intelligent Systems, pages 703–706. IEEE, 2010.
    [12] Jianjiang Feng, Jie Zhou, and Anil K Jain. Orientation field estimation for latent fingerprint enhancement. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(4): 925−940
    [13] Davide Maltoni, Dario Maio, Anil K Jain, and Salil Prabhakar. Handbook of fingerprint recognition. Springer Science & Business Media, 2009.
    [14] Qijun Zhao, David Zhang, Lei Zhang, and Nan Luo. Adaptive fingerprint pore modeling and extraction. Pattern Recognition, 2010, 43(8): 2833−2844 doi:  10.1016/j.patcog.2010.02.016
    [15] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015.
    [16] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 234–241. Springer, 2015.
    [17] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017.
    [18] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06), volume 2, pages 2169–2178. IEEE, 2006.
    [19] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In The European Conference on Computer Vision (ECCV), September 2018.
    [20] Panqu Wang, Pengfei Chen, Ye Yuan, Ding Liu, Zehua Huang, Xiaodi Hou, and Garrison Cottrell. Understanding convolution for semantic segmentation. In 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 1451–1460. IEEE, 2018.
    [21] Dario Maio, Davide Maltoni, Raffaele Cappelli, James L. Wayman, and Anil K. Jain. Fvc2000: Fingerprint verification competition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(3): 402−412 doi:  10.1109/34.990140
    [22] Dario Maio, Davide Maltoni, Raffaele Cappelli, James L Wayman, and Anil K Jain. Fvc2002: Second fingerprint verification competition. In Object recognition supported by user interaction for service robots, volume 3, pages 811–814. IEEE, 2002.
    [23] Dario Maio, Davide Maltoni, Raffaele Cappelli, Jim L Wayman, and Anil K Jain. Fvc2004: Third fingerprint verification competition. In International Conference on Biometric Authentication, pages 1–7. Springer, 2004.
    [24] Craig I Watson and Craig I Watson. NIST Special Database 29:Plain and Rolled Images from Paired Fingerprint Cards . US Department of Commerce, National Institute of Standards and Technology, 2001.
    [25] Maxim Berman, Amal Rannen Triki, and Matthew B Blaschko. The lovász-softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4413–4421, 2018.
    [26] Tijmen Tieleman and Geoffrey Hinton. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural networks for machine learning, 2012, 4(2): 26−31
    [27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv: 1412.6980, 2014.
    [28] Ashia C Wilson, Rebecca Roelofs, Mitchell Stern, Nati Srebro, and Benjamin Recht. The marginal value of adaptive gradient methods in machine learning. In Advances in Neural Information Processing Systems Advances in Neural Information Processing Systems, pages 4148–4158, 2017.
    [29] Liangchen Luo, Yuanhao Xiong, Yan Liu, and Xu Sun. Adaptive gradient methods with dynamic bound of learning rate. arXiv preprint arXiv: 1902.09843, 2019.
    [30] Liyuan Liu, Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, and Jiawei Han. On the variance of the adaptive learning rate and beyond. arXiv preprint arXiv: 1908.03265, 2019.
    [31] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in neural information processing systems, pages 2672–2680, 2014.
    [32] Yaroslav Ganin and Victor Lempitsky. Unsupervised domain adaptation by backpropagation.arXiv preprint arXiv : 1409.7495, 2014.
    [33] Sinno Jialin Pan and Qiang Yang. A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 2009, 22(10): 1345−1359
    [34] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.
    [35] AIsegment.com. Matting human datasets. https://www.kaggle.com/laurentmih/aisegmentcom-matting-human-datasets/.
    [36] Xiaoyong Shen, Xin Tao, Hongyun Gao, Chao Zhou, and Jiaya Jia. Deep automatic portrait matting. In European Conference on Computer VisionEuropean Conference on Computer Vision, pages 92–107. Springer, 2016.
    [37] Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein gan. arXiv preprint arXiv: 1701.07875, 2017.
    [38] Madhero88. Layers of the skin. https://en.wikipedia.org/wiki/File:Skin_layers.png.
    [39] Andrew L Maas, Awni Y Hannun, and Andrew Y Ng. Rectifier nonlinearities improve neural network acoustic models. In Proc. icml, volume 30, page 3, 2013.
    [40] Feng Liu, Linlin Shen, Haozhe Liu, Caixiong Shen, Guojie Liu, Yahui Liu, Wentian Zhang, and Yong Qi. A-benchmark-databaseusing-optical-coherence-tomography-forfingerprints. https://github.com/CVSZU/A-Benchmark-Database-using-OpticalCoherence-Tomography-for-Fingerprints.
    [41] Feng Liu, Caixiong Shen, Haozhe Liu, Guojie Liu, Yahui Liu, Zhenhua Guo, and Lei Wang. A flexible touch-based fingerprint acquisition device and a benchmark database using optical coherence tomography. IEEE Transactions on Instrumentation and Measurement, 2020.
    [42] Feng Liu, Guojie Liu, and Xingzheng Wang. High-accurate and robust fingerprint antispoofing system using optical coherence tomography. Expert Systems with Applications, 2019, 130: 31−44 doi:  10.1016/j.eswa.2019.03.053
    [43] Haozhe Liu, Wentian Zhang, Feng Liu, and Yong Qi. 3d fingerprint gender classification using deep learning. In Chinese Conference on Biometric Recognition, pages 37–45. Springer, 2019.
    [44] Anil Jain, Yi Chen, and Meltem Demirkus. Pores and ridges: Fingerprint matching using level 3 features. In 18th International Conference on Pattern Recognition (ICPR’06), volume 4, pages 477–480. IEEE, 2006.
    [45] Yuanrong Xu, Guangming Lu, Feng Liu, and Yanxia Li. Fingerprint pore extraction based on multi-scale morphology. In Chinese Conference on Biometric Recognition, pages 288–295. Springer, 2017.
    [46] Ruggero Donida Labati, Angelo Genovese, Enrique Muñoz, Vincenzo Piuri, and Fabio Scotti. A novel pore extraction method for heterogeneous fingerprint images using convolutional neural networks. Pattern Recognition Letters, 2018, 113: 58−66 doi:  10.1016/j.patrec.2017.04.001
    [47] Han-Ul Jang, Dongkyu Kim, Seung-Min Mun, Sunghee Choi, and Heung-Kyu Lee. Deeppore: fingerprint pore extraction using deep convolutional neural networks. IEEE Signal Processing Letters, 2017, 24(12): 1808−1812 doi:  10.1109/LSP.2017.2761454
    [48] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. arXiv preprint arXiv: 1412.7062, 2014.
    [49] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834−848
  • [1] 张毅, 尹春林, 蔡军, 罗久飞. Bagging RCSP脑电特征提取算法[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160094
    [2] 李永, 殷建平, 祝恩, 李宽. 基于FAR和FRR融合的多模态生物特征识别[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.00408
    [3] 陈曾, 侯进, 张登胜, 张华忠. 基于语义区域提取的图像重排[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.01356
    [4] 贾立好, 邹建华, 车凯. 基于头顶点三维运动轨迹的身份识别新方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.00028
    [5] 庞旭芳, 庞明勇, 肖春霞. 点云模型谷脊特征的提取与增强算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.01073
    [6] 刘勍, 许录平, 马义德, 王勇. 基于脉冲耦合神经网络的图像NMI特征提取及检索方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00931
    [7] 瞿鑫, 丁天怀. 一种复杂背景下皮棉中异性纤维特征快速提取算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00785
    [8] 高全学, 谢德燕, 徐辉, 李远征, 高西全. 融合局部结构和差异信息的监督特征提取算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.01107
    [9] 葛丁飞. ECG信号自动诊断中回归建模法特征提取的研究[J]. 自动化学报, doi: 10.1360/aas-007-0462
    [10] 李强, 裘正定, 孙冬梅, 张延强. 指横纹:一种新的生物身份特征[J]. 自动化学报, doi: 10.1360/aas-007-0596
    [11] 徐科, 李文峰, 杨朝霖. 基于幅值谱与不变矩的特征提取方法及应用[J]. 自动化学报
    [12] 王长宇, 宋尚玲, 孙丰荣, 梅良模. 一种新的生物特征识别模式-手指背关节皮纹识别[J]. 自动化学报
    [13] 王社阳, 宋申民, 强文义, 陈兴林. 利用空间矩提取亚象素角特征[J]. 自动化学报
    [14] 杜恩祥, 李科杰. 基于多重分形和小波变换的声目标信号特征提取[J]. 自动化学报
    [15] 刘红毅, 王蕴红, 谭铁牛. 基于改进ENN算法的多生物特征融合的身份验证[J]. 自动化学报
    [16] 王森, 张伟伟, 王阳生. 指纹图像分割中新特征的提出及其应用[J]. 自动化学报
    [17] 王蕴红, 朱勇, 谭铁牛. 基于虹膜识别的身份鉴别[J]. 自动化学报
    [18] 周生祥. 回转类零件加工特征提取方法的研究[J]. 自动化学报
    [19] 谭枫, 曾小明. 基于类别可分离性的遥感图象特征提取方法[J]. 自动化学报
    [20] 张欣, 恽才兴, Alpha机图象处理组. 悬浮泥沙的计算机特征提取和分类[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  7
  • HTML全文浏览量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-03-24
  • 录用日期:  2020-06-23

一种鲁棒的基于对抗结构的生物特征ROI提取方法

doi: 10.16383/j.aas.c200156
    基金项目:  国家自然科学基金(91959108, 61672357), 深圳市基础研究基金(JCYJ20190808163401646, JCYJ20180305125822769), 腾讯“犀牛鸟“深圳大学青年教师科学研究基金资助
    作者简介:

    博士, 深圳大学助理教授, 西安电子科技大学学士、硕士, 在2014年, 获得香港理工大学计算机系的计算机科学博士学位. 主要研究方向为模式识别和图像处理以及相关技术在指纹领域中的应用. E-mail: feng.liu@szu.edu.cn

    深圳大学硕士研究生, 主要研究领域为计算机视觉和模式识别. E-mail: liuhaozhe2019@email.szu.edu.cn

    深圳大学硕士研究生, 主要研究领域为模式识别和生物特征识别. E-mail: zhangwentianml@gmail.com

    陕西科技大学本科生, 主要研究方向为计算机视觉与生物识别方向. E-mail: gaasyu.chan@gmail.com

    沈琳琳教授, 上海交通大学学士、硕士, 在诺丁汉大学获得博士学位. 现为深圳市“鹏城学者”特聘教授、英国诺丁汉大学计算机学院荣誉教授、澳门大学杰出访问学者; 广东省教育厅中英合作视觉信息处理实验室主任、深圳大学计算机视觉研究所所长、深圳大学医学影像智能分析与诊断研究中心主任. 研究方向主要为深度学习理论及其在人脸识别/分析以及医学图像分析上的应用. E-mail: llshen@szu.edu.cn

    副研究员, 博士生导师. 在西安电子科技大学获博士学位. 2011年至2012年期间就职于华为技术有限公司. 2014年至2015年在韩国仁川国立大学做博士后研究. 2016年加入中国科学院深圳先进技术研究院. 研究方向主要包括图像变换、计算机视觉、视觉语义理解、视频分析、深度学习等. E-mail: lei.wang1@siat.ac.cn

摘要: 感兴趣区域(Region of Interest, ROI) 提取在生物特征识别中, 常用于减少后续处理的计算消耗, 提高识别模型的准确性, 是生物识别系统中预处理的关键步骤. 针对生物识别数据, 本文提出了一种鲁棒的ROI提取方法. 方法使用语义分割模型作为基础, 通过增加全局感知模块, 与分割模型形成对抗结构, 为模型提供先验知识, 补充全局视觉模式信息, 解决了语义分割模型的末端收敛困难问题, 提高了模型的鲁棒性和泛化能力. 本文在传统二维(2D)指纹, 人脸, 三维(3D)指纹和指纹汗孔数据集中验证了方法的有效性. 实验结果表明, 相比于现有方法, 本文提出的ROI提取方法更具鲁棒性和泛化能力, 精度最高.

English Abstract

刘凤, 刘浩哲, 张文天, 陈嘉树, 沈琳琳, 王磊. 一种鲁棒的基于对抗结构的生物特征ROI提取方法. 自动化学报, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c200156
引用本文: 刘凤, 刘浩哲, 张文天, 陈嘉树, 沈琳琳, 王磊. 一种鲁棒的基于对抗结构的生物特征ROI提取方法. 自动化学报, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c200156
Liu Feng, Liu Hao-Zhe, Zhang Wen-Tian, Chen Jia-Shu, Shen Lin-lin, Wang Lei. A robust roi extraction method for biometrics using adversarial structure. Acta Automatica Sinica, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c200156
Citation: Liu Feng, Liu Hao-Zhe, Zhang Wen-Tian, Chen Jia-Shu, Shen Lin-lin, Wang Lei. A robust roi extraction method for biometrics using adversarial structure. Acta Automatica Sinica, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c200156
  • 感兴趣区域(Region of Interest, ROI)提取是计算机视觉领域的基础问题. 它的目标是对图像进行像素级前后景分离[14]. 在生物特征识别中[57], ROI提取, 常用于减少后续处理的计算消耗, 提高模型的准确性, 是生物识别系统中预处理的关键步骤[7, 8].

    在生物特征识别领域, 早期的ROI提取方法参考了基于阈值和灰度直方图的图像分割算法[911], 结合了图像的固有特征, 实现了对有效区域的提取. 不同的模态数据(如人脸, 指纹和掌纹)具有差异化图像特征[1214], 所以这类基于图像特征的传统分割方法缺乏泛化能力, 无法使用相同范式提取不同模态的ROI. 同时传统分割方法引入了阈值等超参数, 对噪音敏感, 在复杂情况缺乏鲁棒性.

    近年来, 一些研究表明使用深度学习的强表征能力可以有效解决图像分割问题[1517]. 相比于早期的分割方法, 基于深度学习的分割模型(即语义分割)为ROI提取提供了范式(端到端), 增强了模型对噪音的鲁棒性, 提升了模型在复杂情况的表现. 目前对语义分割模型的研究可以分为三个阶段.

    ● 全卷积网络(Fully Convolutional Network, FCN)是一种经典的基于深度学习的像素级别分割的模型[15]. 实验结果表明FCN的分割精度和鲁棒性超越了传统的分割算法. 但在FCN中, 卷积层的堆叠使用导致了网络空间上下文信息的丢失, 影响了FCN对图像语义信息和细节特征的感知能力, 降低了FCN的分割精度.

    ● 基于上述问题, Ronneberger等人[16]提出了一种U形网络结构(U-Net). U-Net通过融合骨干网络中的多层特征, 增强了模型对特征的感知能力, 对图像的细节特征进行了补充, 部分解决了FCN特征丢失的问题. ISBI 2012 EM分割基准显示U-Net是当前研究的最新进展. 这得益于U-Net模型在空间解析度和细节的重保存机制. 但U-Net的多层特征融合方法结构单一, 特征处理形式粗糙. 这表明, 基于深度学习的分割模型具有进一步的提升空间.

    ● 第三阶段的研究是基于空间金字塔架构[18]. Zhao等人提出了一种特殊的池化结构, 空间金字塔池化(Spatial Pyramid Pooling, SPP)[17]. 相比于U-Net, SPP结构通过融合局部特征和全局信息, 合理地利用了特征图(feature map), 进一步增强了模型对语义信息的感知能力, 提高了模型在复杂情况的表现. Chen等人[19]在SPP的基础上, 提出了DeepLabV3$ ^+ $网络. DeepLabV3$ ^+ $使用空洞卷积[20]代替了SPP的池化操作. 基于空洞卷积的空间金字塔结构(Atrous Spatial Pyramid Pooling, ASPP)在提高网络感受野时不会丢失细节特征, 解决了池化结构的精度损失问题. PASCAL VOC 2012分割基准和Cityscapes基准显示DeepLabV3$ ^+ $是目前的最新进展, 分割精度达到最高.

    以上研究显示了深度学习在语义分割问题的潜力. 但基于语义分割的ROI提取方法仍具有局限性. 模型缺乏对边界的约束, 使模型缺乏鲁棒性. ROI提取是二分类语义分割问题, 具有前景目标单一, 背景复杂的特点, 但模型仅使用像素级交叉熵作为损失函数, 导致模型对单一像素分类结果敏感, 缺乏对分割结果的整体感知. 图1展示了基于语义分割的ROI提取结果. 在第一行分割结果中, 模型忽略了马的耳朵和腿, 错误的识别了与目标物体相邻的区域, 相同的问题也出现在模型对飞行器的分割(图1的第二行). 但先验知识表明马具有耳朵和腿, 飞行器具有尖锐的机头, 机翼和尾翼. 这表明模型缺少先验知识信息, 无法有效约束边界, 导致模型缺乏鲁棒性.

    图  1  基于PASCAL VOC 2011验证集的分割结果[2]. positive), 图像从左到右依次是, 原图, ROI的标签, 以及FCN[15]的分割结果. 第一行显示的案例是以马作为提取目标, 第二行显示的是飞行器提取案例.

    Figure 1.  Sample segmentation results[2] on the PASCAL VOC 2011 validation set. Columns(left to right): original images, ground-truth ROI, segmentations produced by FCN[15]. The first row shows the ROI extraction result for horse and the second row shows the result for aircraft extraction.

    另一方面, 基于语义分割的ROI提取模型存在域固化问题, 缺少泛化能力. 图2展示了不同数据集的指纹图像. FVC指纹数据集[2123]是采集器收集的指纹数据, 图像清晰, 背景噪音少. NIST 29特殊指纹数据集[24]收集了纸张卡片中包含的平印痕指纹, 图像清晰度低, 背景噪声大, 干扰性强. FVC指纹数据集和NIST 29指纹数据集的指纹模态区别大, 属于不同的信息域. 现有分割模型缺少泛化能力, 当模型在源域(如FVC数据集)训练, 由源域信息确定模型参数, 模型在源域可以实现高质量的ROI提取, 但在目标域(如NIST 29数据集)的表现会大幅度下滑. 本文将该问题定义为ROI提取的域固化问题, 域固化问题使模型在新应用场景, 需要迁移型训练, 限制了模型的应用范围, 增加了模型下沉的应用成本. 造成域固化问题的成因由两方面构成, 一方面是因为模型缺乏对分割结果的整体感知能力, 另一方面是模型的泛化能力差, 缺乏鲁棒性.

    图  2  拥有不同域信息的指纹图像: (a)指纹图像来自于FVCs[2123]. (b)是图像(a)的ROI区域. (c)指纹图像是来自数据集NIST 29[24]. (d)是(c)的ROI区域.

    Figure 2.  Samples of 2D Fingerprint images in different domains: (a). Images from FVCs[2123] (b). The labeled image of (a) marked with the ROI. (c). The fingerprints impressions in NIST29[24] (d). The artificial annotation for (c).

    为提升模型的泛化能力和鲁棒性, 现有研究主要从两个角度出发, 第一类是基于损失函数的优化, 第二类是从优化器角度出发.

    对损失函数的研究[2, 25]表明, 在ROI提取任务中, 正负样本数量是不均衡的(像素级), 使用像素级的平均准确率和全局的交叉熵作为损失函数是不合理的. 这一问题影响了模型的末段收敛, 降低了模型的精度和泛化能力. 为解决该问题, Rahman等人[2]使用交并比(Intersection-over-Union, IoU)损失函数代替交叉熵损失函数. PASCAL VOC 2010基准显示IoU损失函数会提高模型的精度和鲁棒性, 但IoU的非凸性会使模型收敛出现震荡, 同时IoU无法处理多目标分割任务. 为解决该问题, Berman等人[25]进一步提出了一种基于批量化的IoU损失函数等效形式, Lovasz损失函数. Lovasz损失函数将损失函数推广为多目标分割任务, 解决了模型的震荡问题. 尽管上述方法通过解决正负样本不平衡问提高了分割模型的精度, 但损失函数的修改无法增强模型对分割结果的全局感知能力. 损失函数的固化具有局限性, 在基于热图检测的问题中, 如汗孔提取[14], 目标的分割标签是连续化的, 不适用于此类基于IoU的损失函数.

    第二类解决方案是基于优化器的, 分割模型可使用的参数优化器有Stochastic Gradient Descent (SGD), Root Mean Square Prop (RMSProp)[26]和Adaptive Moment Estimation (Adam)[27]. Adam是收敛速度最快, 分割模型使用率最高的优化器. 但研究[2830]表明Adam优化器会降低模型的泛化能力, 在小样本问题中, 使用Adam优化器的模型易困于局部优解, 导致准确率下滑. Wilson等人认为该问题是由Adam不稳定的学习率参数引起. 为解决该问题, Luo等人[29]提出了一种Adam的亚种, AdaBound. 通过动态地调整学习率边界, 将Adam优化模式在训练过程中平滑地转化为SGD优化模式. Liu等人[30]通过校正学习率的方差稳定训练过程的学习率. 两种方法加速了网络的收敛过程, 部分提高了模型的范性, 但是模型准确率的提升有限.

    以上研究表明提升模型泛化能力和鲁棒性的重要性. 但上述研究针对ROI的域固化问题和边界问题缺乏针对性, 改善能力有限. 本文提出了一种基于对抗结构的全局损失模块, 通过引入先验知识, 加强模型对分割结果的全局感知能力, 在ROI提取模型不添加额外结构的情况下, 提高模型在ROI边界的分割能力, 改善模型在域固化问题的表现. 不同于对抗生成网络(Generative Adversarial Nets, GANs)[31], 跨域(Cross-Domain)模型[32]和迁移学习(Transfer Learning)[33]利用目标域信息对模型进行适应性修改实现跨域ROI提取, 本文仅使用源域信息训练模型, 通过提高模型的泛化能力和感知能力, 提升模型在目标域的表现. 因不使用上述迁移型训练方法, 方法减少了应用下沉的成本, 拓展了模型的使用场景.

    图7是本文提出的ROI提取模型流程图. 模型使用基础网络提取输入图像的深度特征, 利用深度特征, 基于语义分割的分割网络对输入图像实现像素级二分类, 完成ROI提取任务. 不同于现有研究使用单一损失函数, 本文的ROI提取模型的损失函数包含两部分, 第一部分是交叉熵损失函数, 约束网络像素级别的分割. 第二部分是本文提出的全局感知损失函数, 用于提高网络对分割结果的全局感知能力. 全局感知模块的核心是一个子网络判别器, 子网络判别器的输入是标签数据和模型的预测数据, 目标是区分预测数据和标签数据. 全局感知模块约束ROI提取模型生成高质量预测结果, 欺骗子网络判别器, 形成对抗结构. 子网络判别器由一系列卷积操作组成, 具有大感受野和高维感知能力, 为ROI提取模型引入了分割目标的先验知识, 因此交叉损失函数与全局感知模块具有互补性. 实验结果表明, 通过引入全局感知模块, 模型提取得到的ROI边界质量明显提高, 人脸提取的准确率(Pixel Accuracy)达到97.09%, 交并比(IoU) 为0.9734, 达到了目前的最高精度. 全局感知模块同样改善了模型在跨域问题的表现, 在不使用目标域信息的情况中, 模型对目标域2D指纹图像的ROI提取准确率达到92.58%, 交并比达到0.8606, 相比于不使用全局感知模块的模型, 准确率提升了11.93%, 交并比提升了19.86%.

    图  7  基于全局损失函数的ROI提取模型

    Figure 7.  Overview of our proposed ROI extraction model.

    • 本节重点介绍了本文提出的ROI提取方法, 包含(1)基于语义分割的ROI提取模型框架; (2)全局感知模块; (3)具有全局感知模块的ROI提取模型.

    • 语义分割模型利用深度学习, 实现了对图像的像素级分割. 对于ROI提取问题, 像素的类别有两类, 目标前景和背景. 因此, 基于语义分割的ROI提取模型$ F(x) $应实现$ x \rightarrow y $的映射. 其中, $ x $是输入图像. $ y = 0/1 $是ROI模型提取的背景/ROI结果.

      为实现上述映射关系, 模型需对网络参数进行约束, 确定学习目标, 即损失函数. 在ROI提取问题中, 模型常使用交叉熵作为损失函数, 如式(1).

      $$ L_F(y,\!\hat{y})\! = \! -\!\frac{1}{N}\!\sum\limits_i^N [\hat{y}log(\!F(x)\!)\!+\!(1\!-\!\hat{y})log(1\!-\!F\!(\!x\!)\!)] $$ (1)

      式(1)中, $ {\mathbb{P}} $是输入图像的概率分布, $ \hat{y} $$ x $的ROI标签. 模型通过最小化交叉熵损失函数确定学习型参数, 实现像素级分割. ROI提取模型$ F $由多层卷积网络堆叠, 如图3, 分为基础网络和分割网络两部分. 其中, 基础网络用于提取输入图像的高维深度特征, 分割网络利用基础网络输出的不同层深度特征完成ROI的提取.

      图  3  基于语义分割的ROI提取模型, 模型分为两部分: 基础网络和分割网络.

      Figure 3.  The flowchart of ROI extraction network based on semantic segmentation.

    • 传统ROI提取模型中的基础网络主要完成深度特征的提取. 目前主流的基础网络结构包含VGG, ResNet,HDCRes-Net等[15, 20, 34]. 本文采用了基于空洞卷积的残差网络HDCRes-34[20]作为基础网络. 相较于其他的网络结构, HDCRes-34网络使用空洞卷积代替了传统的池化操作, 在提升感受野的同时降低了网络对空间信息的损失, 减少了噪音对模型的影响, 增加了网络对特征的表征能力, 是用于图像分割问题的经典基础网络结构[19].

      图3展示了HDCRes-34的结构图. 该模型由四个残差块(Res-Block)单元构成. 每个残差块单元都是由一个主干网络和一个跳跃式通道构成. 每个残差块单元都是由一个主干网络和一个跳跃式通道构成. 在主干网络的设计中, 为避免ROI提取出现网格效应, 本文参考了wang等人的工作[20], 使用了空洞率分别为1, 2和5的空洞卷积层和步距为2的卷积层进行堆叠. 跳跃式通道由一个卷积层构成, 跳跃式通道的输出与主干网络相加, 经批归一化处理后, 得到最终输出结果. 基础网络的每个残差块单元输出能够较好表征输入图像在不同尺度的深度特征, 即图3中所示的$ f_1(x) $, $ f_2(x) $, $ f_3(x) $, $ f_4(x) $, 最后通过一个步距为1的卷积网络得到具有512个通道, 大小为输入图像的1/16的更能表征语义信息的深度特征$ f_f(x) $.

    • ROI提取模型中的分割网络以基础网络输出的表征语义信息的深度特征$ f_f(x) $以及中间层表征结构信息的深度特征$ f_2(x) $为输入, 通过卷积网络融合输入的两个特征, 使用上采样将输入的特征放大, 再使用softmax层计算每个像素点对应的二分类概率(前景和背景), 最终实现像素级分割. 本文在分割网络部分, 主要参考了DeepLabV3$ ^+ $[19]网络结构, 该网络通过使用ASPP计算并融合了$ f_f(x) $在不同感受野操作下的多尺度信息, 并利用该融合后的特征进行图像分割. 相比于传统的分割模型, ASPP架构融合了多尺度信息. 因此, 对特征的利用更全面, 对图像的空间联系性更敏感, 是目前图像分割的最新进展.

      图3展示了分割网络的具体结构. 为得到多种感受野下的图像特征, ASPP模块使用了池化, 点卷积, 空洞率为1, 2, 5的空洞卷积这五种方法提取基础网络的输出特征, 并将提取后的特征拼接在一起, 使用点卷积降低特征的通道数. 为融合浅层结构信息和语义信息, 级联结构将基础网络的第二个残差块单元输出与ASPP的输出进行拼接, 为保证两部分信息对分割结果的贡献度一致, 本文使用点卷积提升了基础网络的第二个残差块单元输出的通道数(128到256), 保证了浅层结构信息和语义信息的通道数相同(通道数为256). 为保证网络的输出与输入大小的维度一致, 本文使用了卷积层和上采样层相结合的方式, 提升特征图的大小, 进而得到ROI提取结果.

    • 在上述基于语义分割的ROI提取模型的初期训练阶段, 由于选用$ L_F(y,\hat{y}) $作为损失函数, 随着$ L_F(y,\hat{y}) $减小, 模型的表现逐渐提升, 但在模型的末端收敛中, $ L_F(y,\hat{y}) $的值趋于平稳, 数值较小, 提供的梯度有限, 因此模型在末端难以收敛到优解, 导致对目标ROI的边界和细节分割不准确. 如图4显示的基于上述模型在生物特征识别中的ROI提取的具体表现, 可以发现, 采用章节1.1所述的模型(Baseline)在人脸边界部分的分割缺乏准确性, 表现效果差. 另一方面, $ L_F(y,\hat{y}) $是像素级损失函数, 缺少全局的感知能力. 以图5为例, 图5(a)是对数字6的分割结果, 图5(b)图5(a)向左平移一个像素得到. 两张图像整体相似性高, 理想的损失函数应符合人类视觉系统, 因此, 以图5(a)图5(b)作为输入, 损失函数应输出低值. 但交叉熵损失函数是逐像素计算差异, 考虑到平移操作改变了像素级结果, 因此交叉熵损失函数在该案例中失效, 损失值高达264.80. 在图4所示的对指纹的ROI提取中, 模型使用FVCs[2123]进行训练, 在NIST 29[24]进行测试, 结果表明基于深度学习的分割模型在域固化问题表现差, 存在大区域的假阳性分割. 以上案例表明, 交叉熵损失函数缺乏对结果的全局感知和考量, 这导致基于交叉熵的ROI提取模型对单像素结果敏感, 易受局部特征干扰, 缺乏鲁棒性和泛化能力, 在域固化问题表现差.

      图  4  在生物特征识别中, 基于语义分割的ROI提取模型存在的问题. 第一行是人脸提取的案例分析[35, 36], 第二行是指纹ROI提取的案例分析[2124].

      Figure 4.  ROI extraction issues we observe on biometrics cases. The first row shows the ROI extraction result for face[35, 36] and the second row presents the result for fingerprint ROI extraction[2124].

      图  5  像素级损失函数的失效情况, 分割结果(b)是分割结果(a)向左平移一个像素得到. 结果显示两个分割结果的交叉熵为264.80, L2为23.00.

      Figure 5.  Failure of pixel level loss functions: (a) translates one pixel to the left to get (b). Cross entropy between (a) and (b) is 264.80 and L2 is 23.00.

      为解决上述问题, 本文考虑在ROI提取模型中加入一个能提供先验知识的全局视觉模块. 以指纹图像为例, 指纹的分割结果应呈现为一个连续且平滑的区域, 整体形状近似椭圆. 如果模型已知指纹图像的视觉模式特征, 可以避免图4显示的大范围假阳性分割. 同样的视觉模式也存在于人脸分割, 人脸的边界没有明显的棱角和边缘, 在人脸内部不存在小面积背景区域. 因此本文提出了一种基于对抗结构的全局感知模块. 全局感知模块的核心是如图6所示的子网络判别器D. 该子网络判别器用于计算全局感知损失, 从全局角度约束本文使用的ROI提取模型.

      图  6  基于对抗结构的全局损失模块的结构图

      Figure 6.  Adversarial structure based global perceptual loss module.

      子网络判别器$ D $是一个二分类网络, 输入是ROI提取模型的分割结果和对应的标签, 目标是区分预测值和标签. 子网络判别器使用六个残差块[34]作为基干. 为增大感受野, 减少特征丢失, 本文的残差块使用空洞卷积层代替了传统的池化层, 如图6, 残差块具体由三个空洞卷积层, 一个卷积层和一个批归一化层组成. 其中空洞卷积的空洞率设计为1, 2, 5, 用于解决空洞卷积的网格效应[20]. 为了降低特征图的维度, 模型使用点卷积(Point-wise Convolution)处理基干网络的输出, 得到高质量全局特征. 利用该全局特征, 子网络判别器使用全连接层, 增加网络复杂度, 完成二分任务.

    • 将全局感知模块加入到章节1.1所述的ROI提取框架中时, 本文的ROI提取模型除了需要满足像素级损失函数的约束, 还需完成对子网络判别器的欺骗. 因此, 子网络判别器与ROI提取模型形成了对抗结构. 模型的参数更新与对抗生成网络类似, 子网络判别器与ROI提取模型是同时训练的. ROI提取模型的网络复杂度, 参数规模和网络深度均高于子网络判别器, 存在对抗结构的不平衡问题, 影响模型收敛稳定性. 为解决该问题, 本文使用Wasserstein Loss[37]作为该对抗结构的损失函数, 稳定模型训练过程. 子网络判别器D的损失函数如式(2).

      $$ L_D(x,\hat{y}) = {\mathbb{E}}_{x \sim {\mathbb{P}}_g}\left[ D\left(F(x)\right) \right] -{\mathbb{E}}_{\hat{y} \sim {\mathbb{P}}_r}\left[ D\left(\hat{y}\right) \right] $$ (2)

      其中, $ {\mathbb{P}}_r $是ROI标签的概率分布, $ {\mathbb{P}}_g $是ROI提取模型分割的概率分布. 考虑到像素级损失函数, ROI提取模型的最终损失函数为,

      $$ L_G(x,\hat{y}) = L_F(F(x),\hat{y}) - {\mathbb{E}}_{x \sim {\mathbb{P}}_g}\left[ D\left(F(x)\right) \right] $$ (3)

      其中, $ L_F(F(x),\hat{y}) $是像素级别的损失函数, $ -{\mathbb{E}}_{x \sim {\mathbb{P}}_g} \left[ D\left(F(x)\right) \right] $则是全局感知模块的生成器部分损失函数(全局感知损失函数). 从式(2)和式(3)发现, ROI提取模型的目标是缩小$ {\mathbb{E}}_{x \sim {\mathbb{P}}_r}\left[ D\left(F(x)\right) \right] $$ {\mathbb{E}}_{x \sim {\mathbb{P}}_g}\left[ D\left(F(x)\right) \right] $之间的距离, 而子网络判别器的目标是扩大两者之间的距离. 图7给出了本文提出的基于全局损失函数的ROI提取模型, 通过加入全局感知模块, 将最终的学习目标确定为同时缩小像素级损失函数和全局感知损失函数, 最终得到细粒度预测结果, 提取得到了目标ROI.

    • 在实验部分, 本文首先介绍了实验的实施方案, 接着验证了全局感知模块的范式化能力和有效性. 最后测试了全局感知模块在不同生物特征图像中ROI提取性能, 包含传统2D指纹ROI提取, 人脸ROI提取, 3D指纹ROI提取以及指纹汗孔提取(类ROI提取问题).

    • 本文的ROI提取模型使用高斯分布初始化网络参数, 高斯分布的均值为0, 标准差为0.02. 在优化器方面, 本文使用RMSProp优化器优化全局感知模块, 使用Adam优化器优化ROI提取模型. RMSProp的学习率设置为$ 5 \times 10^{-5} $, Adam的学习率则为$ 1\times 10^{-4} $. Adam优化器的超参数$ \beta_1 $$ \beta_2 $分别设置为0.9和0.999. 在激活函数方面, 本文参考了Maas等人的工作[39], 使用Leaky Relu函数作为模型的激活函数. 实验使用的硬件平台CPU处理频率为2.8GHz, 内存为32GB, GPU是NVIDIA TITAN Xp.

      为验证本文提出方法的有效性, 本文分别在不同的生物特征数据库上进行了实验, 包括传统2D指纹的ROI提取, 人脸ROI提取以及3D指纹ROI提取.

      在传统2D指纹ROI提取方面: 如图2所示, 本文使用了两种数据集, 用于测试模型提取指纹ROI的表现. 第一种是FVC竞赛网站上公开的指纹数据集FVC2000[21], FVC2002[22],FVC2004[23], 总共包含740张背景相对干净的2D指纹图像. 另一种是平印在纸上的具有复杂背景的特殊指纹数据集NIST29[24], 总共包含960根手指的2D平印痕指纹图像. 本文人工标注了两类数据集所有指纹的ROI, 为实验提供了像素级的指纹ROI数据, 标注结果如图2所示. 本文同时考虑了(i)FVCs作为训练集, NIST 29作为测试集和(ii)NIST作为训练集, FVCs作为训练集两种情况, 用以评估方法在域固化问题的性能. 在实验中, 对比方法本文选取了几种经典的传统ROI提取方法(例如基于均值和方差的[13], 基于方向场特征的[12]和基于频域特征的[13]ROI提取方法)以及几种流行的基于语义分割模型的ROI提取方法. 模型的评价指标为像素级准确率(Pixel Accuracy)和平均交并比(mIoU), ROI提取模型的批处理大小为10张图像, 迭代次数上限为10K.

      在人脸ROI提取方面: 本文使用了两个数据集用于衡量模型在人脸提取问题的表现. 第一个数据集是由Shen等人[36]提出的包含2K张具有标注的人脸图像, 第二个是由AIsegment.com[35]提供的含30k张具有标注的人脸图像. 由于两个数据集的图像数量不均衡, 本文仅考虑以第一个数据集作为训练集, 使用第二个数据集作为测试集的情况. 在本案例中, 评价指标与指纹ROI提取案例一致, ROI提取模型的批处理大小为10, 迭代次数上限为10K. 对比方法包括了FCN[15], U-Net[16]和PSPNet[17]等主流语义分割分割网络.

      在3D指纹ROI提取方面: 为测试模型针对特殊模态数据的ROI提取性能, 本文使用3D指纹(内部指纹)作为测试案例. 3D指纹数据集是Liu等人[4043]提供的包含多幅皮下深度信息的指纹横截面图像. 本文人工标注了内部指纹的横截面图像, 标注如图8所示. 每个手指都包含了400张图8所示的横截面图像. 标注的数据集总大小为1600张横截面图像(四个手指), 训练集和测试集的比例为$ 4:1 $. 网络的批处理大小是10, 最大迭代次数为15K. 评价指标和对比实验与上述人脸案例一致.

      图  8  3D指纹的横截面和对应ROI区域: (a). 标注了生物组织结构的指纹横截面图像 (b). 该横截面对应的ROI区域 (c). 指尖的生物结构[38].

      Figure 8.  An example of X-Z cross-section image labeled for 3D fingerprints:(a). The longitudinal(X-Z) fingertip image marked with biological structure. (b). The labeled image mark with the ROI. (c). Physical structure of human skin[38].

      在指纹汗孔提取方面: 由于指纹汗孔提取是从较暗的指纹脊线上提取较浅颜色的汗孔特征, 是一种类ROI提取问题. 因此本文ROI提取方法可以用于高精度指纹汗孔特征的提取. 本文使用高精度指纹数据集(High Resolution Fingerprint, HRF)[14]测试模型的汗孔提取能力. 该数据集包含30张高精度指纹图像. 本文对比实验包括Gabor Filter[44], Adapt. Dog[14], DAPM[14], Xu等人提出的方法[45], Labati等人提出的方法[46]和DeepPore[47]. 本文采取的实验设计与DeepPore一致. 模型的后处理方案是Pore Intensity Refinement (PIR)[47]. 实验的测试方案为5-fold, 测试指标为真检出率(True Detection Rate, $ R_T $)和误检率(False Detection Rate, $ R_F $). $ R_T $的值越高模型的表现越好, $ R_F $的值越低, 模型的性能越高.

    • 为验证全局感知模块的有效性和范式化能力, 本文考虑了ROI提取模型使用不同损失函数和优化器的情况, 比较了使用全局感知模块和不使用该模块的模型表现. 表1显示了该实验的结果, 本文考虑了四种损失函数(IoU loss, Lovasz loss, L2 loss和交叉商损失函数)和三个优化器(AMSGrad, Radam和Adam优化器). 表1中的Baseline是本文在第1.1节提出的ROI提取模型, 本文方法是具有全局感知模块的ROI提取模型. Baseline和本文方法在测试时, 网络结构和超参数保持一致.

      表 1  不同设置下的全局感知模块表现

      Table 1.  Investigation of Global Perceptual Loss Module with Different Settings

      优化策略2D传统指纹(Pixel Acc.(%)/Mean IoU)人脸(Pixel Acc.(%)/Mean IoU)3D指纹(Pixel Acc.(%)/Mean IoU)
      本文方法Baseline本文方法Baseline本文方法Baseline
      损失函数IoU loss[2]92.07/0.863290.66/0.838092.05/0.857990.03/0.825496.97/0.885995.18/0.8640
      Lovasz loss[25]92.48/0.864893.14/0.882297.21/0.947596.71/0.938895.74/0.878895.69/0.8767
      L2 loss93.33/0.861389.33/0.821996.99/0.943496.90/0.942095.70/0.885094.14/0.8331
      CrossEntropy loss(base)92.58/0.860682.71/0.718097.06/0.942996.77/0.938996.13/0.897595.43/0.8719
      优化器AMSGrad[29]93.65/0.886392.39/0.867296.50/0.935396.17/0.928993.56/0.823090.45/0.7540
      Radam[30]92.72/0.869492.27/0.866596.72/0.939096.52/0.935095.77/0.880695.19/0.8676
      Adam(base)[27]92.58/0.860682.71/0.718097.06/0.942996.77/0.938996.13/0.897595.43/0.8719

      表1给出的基于不同损失函数与优化器的ROI提取模型(Baseline)以及在这些ROI提取模型中加入提出的全局感知模块(本文方法)的识别性能中, 可以看出, 对于不同模态的数据集(例如2D传统指纹图像, 人脸图像, 3D指纹图像), 本文方法较之Baseline大部分都取得了最好的结果, 说明全局感知模块与不同ROI提取模型中的损失函数和优化器均有互补性, 对于处理数据的模态也不敏感, 从而证明本文提出的全局感知模块是有效的且具有一定的范式化能力.

      为进一步探究全局感知模块在ROI提取模型训练过程中的作用, 本文测试了三种模态数据下ROI提取模型的收敛过程. 图9显示了ROI提取模型的精度和交并比随训练次数增加而变化的图像. 在三种模态数据的训练过程中, 代表使用全局感知模块的ROI提取模型的收敛折线总在本文的Baseline上方, 这表明使用了全局感知模块的ROI提取模型都可以更快的收敛, 在更少的迭代次数下具有更好的分割表现. 另一方面, 本文可视化了Baseline和本文方法在收敛过程中对一些分割样例的具体表现. 如图10所示, Baseline在2D指纹的ROI提取中受到了背景字迹的干扰, 而本文方法随着训练次数的增加, 逐渐消除了背景字迹对ROI提取的干扰. 人脸提取和3D指纹的ROI提取也存在类似情况, 在人脸提取中, Baseline易受到背景信息的干扰, 而处于相同训练迭次数的本文方法则没有类似情况出现. 在3D指纹的ROI提取中, Baseline对ROI的边界分割效果并不理想, 在迭代次数为200时, 本文方法已经基本收敛, 但是Baseline分割的边界区域仍存在不连贯和错误的现象. 以上实验结果表明, 本文的方法处于相同迭代次数时具有更精细的边界划分和更高精度的分割表现, 说明了在ROI提取模型训练过程中, 全局感知模块有效订正了模型的分割结果, 从全局角度对模型进行约束, 提升了模型对结果的感知能力, 补充了全局的视觉模式特征, 进一步验证了全局感知模块的有效性.

      图  9  ROI提取模型的收敛折线图. 第一行的评价指标为交并比, 第二行的评价指标为像素级准确率. 从左至右: 传统二维指纹的ROI提取, 人脸ROI提取和3D指纹ROI提取.

      Figure 9.  The convergent plots for ROI extraction model. The evaluation metric of first row is Mean IoU, that of second row is Pixel Acc..From left to right: 2D fingerprint, face and 3D fingerprint ROI extraction.

      图  10  不同训练次数下的2D指纹ROI, 人脸提取和3D指纹ROI的提取结果: 从左至右依次是不同的迭代次数的模型分割结果. 上面的一行是Baseline的分割结果, 下面的一行是本文方法的分割结果.

      Figure 10.  The Result for 2D fingerprint, face and 3D fingerprint ROI extraction with different iteration numbers. From left to right, there are the extraction results with different iteration numbers. The upper row corresponds to the extraction results of Baseline, and the lower row shows the results of the proposed method.

    • 考虑到指纹ROI提取案例使用的数据集, 具有图像差异大, 图像质量跨度广的特点, 因此本文使用指纹ROI提取案例分析了全局感知模块在域固化问题的表现. 本案例考虑了FVCs和NIST 29分别作为训练集的情况. 图11显示了ROI提取结果. 结果表明, 使用全局感知模块的ROI提取模型具有鲁棒性, 没有受到背景手写字迹的干扰, 具有最小的假阳性和假阳性分割面积. 同时, 表2量化了ROI的分割结果. 其中, FVCs vs. NIST 29表示FVCs数据集作为训练集, NIST 29作为测试集的情况, NIST 29 vs. FVCs表示的是NIST 29作为训练集的情况, FVCs作为测试集的情况, 平均值(Average)则是对上述两种情况的评测结果取平均值. 由表2可知, 在FVCs vs. NIST29中, 本文提出的方法相较于不使用全局感知模块的Baseline将分割的像素级准确率从82.71%提升至92.58%, 将交并比从0.7180提升至0.8606. 与对比的传统方法以及其他经典学习模型的ROI提取方法相比, 本文提出的方法取得了最好的结果. 在NIST29 vs. FVCs的情况中, 本文提出方法性能提升同样明显, 除了交并比略低于基于均值和方差的ROI提取方法[13], 但平均两种情况的表现, 发现这种传统方法的表现不稳定, 在NIST29数据集下测试时, 交并比仅为0.6852, 远低于达到0.8606交并比的本文方法. 这表明, 传统方法虽然同样能达到与深度学习相近的分割性能, 但对噪音和背景敏感, 缺乏鲁棒性. 另一方面, 本文也考虑了与后处理方法的比较, Baseline+Dense-CRF使用了Dense-CRF[48]对ROI提取结果进行了后处理, 将结果从77.92%的像素级准确率提升到84.32%, 但仍低于本文方法的86.44%的ROI提取结果. 同时本文的方法可以和Dense-CRF融合使用, 实验结果显示两者具有互补性, 可以将分割的像素级准确率从86.44%进一步提升至88.70%. 以上实验结果共同表明在域固化问题中, 使用全局感知函数对模型的提升效果明显, 证明了全局感知模块提升ROI提取模型鲁棒性和泛化能力的有效性. 相比于传统的ROI提取方法和基于深度学习的语义分割方法, 在使用全局感知模块后, 本文提出的ROI提取模型达到了目前的最好结果, 平均像素级准确率达到88.70%, 平均mIoU达到0.8352.

      图  11  人脸ROI提取和2D指纹ROI提取结果: 从左至右依次是原图, FCN, U-Net, PSPNet, Baseline和使用全局感知模块的ROI提取模型的结果. 第一行是人脸ROI提取的结果, 第二行是2D传统指纹的ROI提取结果.

      Figure 11.  The Result for face ROI extraction and 2D fingerprint ROI extraction. From left to right: the original image & the prediction of FCN, U-Net, PSPNet, Baseline and the proposed ROI extraction model using global perceptual loss module. The first row corresponds to face ROI extraction, and the second row shows the result of 2D traditional fingerprint ROI extraction.

      表 2  2D指纹ROI提取实验结果

      Table 2.  ROI Extraction Results of 2D Fingerprints

      FVCs vs. NIST29 Pixel Acc.(%)/MeanIoUNIST29 vs. FVCs Pixel Acc.(%)/MeanIoU平均值(Average) Pixel Acc.(%)/MeanIoU
      Mean and Variance based Method[13]76.71/0.685277.23/0.755176.97/0.7202
      Orientation based Method[12]75.37/0.753274.46/0.621374.92/0.6873
      Fourier based Method[13]65.45/0.634965.45/0.634965.45/0.6349
      PSPNet[17]87.74/0.800079.41/0.720983.58/0.7605
      FCN[15]87.20/0.793275.77/0.673681.49/0.7334
      U-Net[16]85.83/0.783976.46/0.725181.15/0.7545
      Baseline82.71/0.718073.12/0.734177.92/0.7261
      Baseline+Dense-CRF[48]90.33/0.783578.30/0.734784.32/0.7591
      本文方法92.58/0.860680.29/0.746986.44/0.8038
      本文方法+Dense-CRF94.67/0.885282.73/0.785288.70/0.8352
    • 表3给出了本文方法与对比方法的实验结果. 从表3可以看出, 本文提出的具有全局感知模块的ROI提取模型在人脸提取案例中, 同样达到了目前的最新进展, 在不使用Dense-CRF时具有最高的提取准确性(97.06%), 在使用Dense-CRF时具有最高的交并比(0.9734). 相比于高使用率的分割模型U-Net[16], 本文提出的模型在像素级准确率指标中提升了1.58%, 在平均交并比指标中提升了6.42%. 全局感知模块对ROI提取模型的改善体现在对人脸边界的分割. 图11显示了人脸的ROI提取样例, 传统的ROI提取模型受到了背景中气球的干扰, 把气球识别为人脸, ROI提取结果显示大面积的假阳性分割. 相比于Baseline和其他基于语义分割的模型, 使用全局感知模块的ROI提取模型具有全局信息和全局视觉模式, 受到的干扰小, 在图11显示的案例中, 分割结果更加准确. 以上结果表明通过全局视觉模式的补充和对全局分割结果的感知, ROI提取模型在人脸提取的表现得到进一步的增强, 证明了全局感知模块的有效性.

      表 3  人脸提取案例实验结果

      Table 3.  ROI Extraction Results of Face Images

      Pixel Acc(%). Mean IoU
      PSPNet[17] 93.62 0.8803
      FCN[15] 95.90 0.9212
      U-Net[16] 95.55 0.9147
      Baseline 96.77 0.9389
      Baseline+Dense-CRF[48] 95.77 0.9712
      本文方法 97.06 0.9429
      本文方法+Dense-CRF 96.41 0.9734
    • 本文提出的模型在特殊模态数据下的表现如表4所示, 相比于其他通用模型, 基于全局感知模块的ROI提取模型的像素级准确率和交并比指标达到了目前的最好水平, 像素级准确率达到了96.13%, 交并比达到了0.8975. 相比于本文提出的Baseline, 本文方法的像素级准确率提升了1%左右, 交并比提升了2%. 值得注意的是, 在3D指纹ROI提取案例中, 加入Dense-CRF后处理的结果性能略有降低, 说明在Dense-CRF中, 一元项不准确时, 无法提供精细化分割边界[49]. 因为本案例使用的指纹图像是基于OCT设备的, 具有3D结构, 因此本文可视化了最终的3DROI提取结果, 如图12所示. 图12(a)显示了原始3D指纹指纹: 包含有采集设备引入的噪音和指纹与设备承载片非贴合的背景区域. 图12(b)展示了使用本文提出的模型进行ROI提取后的结果. 图12表明, 基于全局感知模块的ROI提取模型有效提取了3D指纹的有效区域, 剔除了无效区域和噪音的干扰, 为后续图像处理步骤提供了便利. 该结果说明, 3D指纹图像的ROI提取可以转换为对单张横截面的ROI提取问题, 在特殊模态数据中, 本文提出的模型仍有很好的性能, 证明了模型在各种模态数据中具有范式化能力和优异的ROI提取性能.

      表 4  3D指纹的ROI提取结果.

      Table 4.  ROI Extraction Results of 3D Fingerprints

      Pixel Acc.(%) Mean IoU
      PSPNet[17] 93.67 0.8296
      FCN[15] 94.62 0.8526
      U-Net[16] 94.82 0.8614
      Baseline 95.43 0.8719
      Baseline+Dense-CRF[48] 95.50 0.8718
      本文方法 96.13 0.8975
      本文方法+Dense-CRF 96.12 0.8898

      图  12  基于全局感知模块的3D指纹ROI提取结果: (a)原始的3D指纹图像[41]. (b)使用本文提出的方法, 针对(a)提取得到的ROI结果.

      Figure 12.  A set of images which show the ROI extraction result of our proposed method for 3D Fingerprint: (a). 3D fingerprint images obtained by OCT device[41]. (b). Effective structure of 3D fingerprint extracted by our proposed method.

    • 本文提出的模型在指纹汗孔提取中的表现如表5所示, 其中, DeepPore$ ^* $是使用全局感知模块的DeepPore模型[47], 括号里的数值是对应评价指标的标准差. 实验结果表明, 本文提出的方法的$ R_T $(%)达到了98.30, 远超于之前的最新进展DeepPore报告的93.09, 而本文方法的$ R_F $则为7.83, 同样低于DeepPore的8.64. 为进一步论证全局感知模块的有效性, 本文使用全局感知模块优化DeepPore模型, 得到了表格中DeepPore$ ^* $的结果, 其$ R_T $$ R_F $同样高于DeepPore (96.33 vs. 93.09, 6.45 vs. 8.64). 另一方面, 本文可视化了汗孔的提取结果, 如图13所示, 本文提出的方法准确的提取到了图13(a) 中的汗孔为后续活体检测和身份验证提供了位置和特征信息. 以上实验结果表明, 针对类ROI提取任务, 即汗孔提取, 本文提出的全局感知模块同样有效的优化了网络模型, 为网络提供了汗孔的全局视觉模式信息, 增强了网络对汗孔的感知能力, 有效的提升了模型的ROI提取性能.

      表 5  指纹汗孔提取实验结果

      Table 5.  Fingerprint Pore Extraction Results

      $ R_T$(%)$ R_F$(%)
      Gabor Filter[44]75.90(7.5)23.00(8.2)
      Adapt. Dog[14]80.80(6.5)22.20(9.0)
      DAPM[14]84.80(4.5)17.60(6.3)
      Xu等人[45]84.80(4.5)17.60(6.3)
      Labati等人[46]84.69(7.81)15.31(6.2)
      DeepPore[47]93.09(4.63)8.64(4.15)
      DeepPore$ ^*$96.33(6.57)6.45(17.22)
      Baseline97.48(9.63)7.57(5.85)
      本文方法98.30(9.2927)7.83(4.18)

      图  13  基于全局感知模块的汗孔提取结果: (a)原始的高精度指纹图像[14]. (b)使用本文提出的方法, 针对(a)提取得到的ROI结果.

      Figure 13.  The ROI extraction result of our proposed method for pore extraction: (a). High resolution fingerprint image[14]. (b). Fingerprint pores extracted by our proposed method.

    • 本文提出了一种基于对抗结构的全局感知模块, 用于优化ROI提取模型. 全局感知模块解决了ROI提取模型存在的末端收敛困难, 缺少全局感知能力, 缺少全局视觉模式信息等问题, 提高了ROI提取模型的鲁棒性和泛化能力, 优化了模型对边界的分割准确性, 改善了模型在域固化问题中的表现. 实验结果表明本文提出的模型在多个生物特征数据集中达到了ROI提取的最新进展, 拥有最高的分割精度. 同时, 在类ROI提取(汗孔提取)问题中, 本文提出的方法依然能取得很好的结果, 且全局感知模块对现有的模型有增强效果, 这进一步验证了本文方法的有效性. 在未来工作中, 我们将继续深入研究, 将全局感知模块应用于多目标分割任务中.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回