2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于主视通路结构分级响应模型的轮廓检测方法

陈树楠 范影乐 房涛 武薇

陈树楠, 范影乐, 房涛, 武薇. 基于主视通路结构分级响应模型的轮廓检测方法. 自动化学报, 2020, 41(x): 1−14. doi: 10.16383/j.aas.c200046
引用本文: 陈树楠, 范影乐, 房涛, 武薇. 基于主视通路结构分级响应模型的轮廓检测方法. 自动化学报, 2020, 41(x): 1−14. doi: 10.16383/j.aas.c200046
Chen Shu-Nan, Fan Ying-Le, Fang Tao, Wu Wei. A contour detection method based on hierarchical structure response model in primary visual pathway. Acta Automatica Sinica, 2020, 41(x): 1−14. doi: 10.16383/j.aas.c200046
Citation: Chen Shu-Nan, Fan Ying-Le, Fang Tao, Wu Wei. A contour detection method based on hierarchical structure response model in primary visual pathway. Acta Automatica Sinica, 2020, 41(x): 1−14. doi: 10.16383/j.aas.c200046

基于主视通路结构分级响应模型的轮廓检测方法


DOI: 10.16383/j.aas.c200046
详细信息
    作者简介:

    杭州电子科技大学自动化学院硕士研究生. 2018年获得杭州电子科技大学学士学位. 主要研究方向为计算机视觉, 图像处理. E-mail: 13616821889@163.com

    杭州电子科技大学自动化学院教授. 2001年获浙江大学生物医学工程博士学位. 主要研究方向为神经信息学、机器视觉与机器学习. 本文通信作者. E-mail: fan@hdu.edu.cn

    杭州电子科技大学自动化学院博士研究生. 2015年获得华北水利水电大学学士学位, 目前在杭州电子科技大学攻读博士学位. 主要研究方向为模式识别, 生物启发类算法研究. E-mail: tfyzft@foxmail.com

    杭州电子科技大学自动化学院讲师. 2012年获浙江大学生物医学工程博士学位. 主要研究方向为医学信息学、计算机图像处理. E-mail: ww@hdu.edu.cn

  • 基金项目:  国家自然科学基金资助项目(61501154)资助

A Contour Detection Method Based on Hierarchical Structure Response Model in Primary Visual Pathway

More Information
  • Fund Project:  Supported by National Natural Science Foundation of China (61501154)
  • 摘要: 基于视通路结构分级响应与动态传递的方式, 本文提出了一种图像轮廓检测的新方法. 针对视网膜感光细胞的暗视觉特性, 建立亮度自适应的暗视野调节模型, 利用多尺度经典感受野的方位选择性, 构建高级轮廓与全局轮廓的检测路径; 模拟LGN细胞特性对信息进行纹理稀疏编码, 并结合非经典感受野的侧抑制作用抑制背景强纹理; 另外在LGN区提出微动整合机制, 减少纹理冗余信息, 再经适应性突触实现信息关联传递; 最后将初级轮廓响应跨视区前馈至V1区并经全局轮廓修正后, 与高级轮廓响应实现快速融合. 分别以RuG40、BSDS500图像库中的自然图像作为实验数据, 检测结果与基准轮廓图的平均最优P指标分别为0.50、0.32, 结果表明本方法能更有效的区分轮廓与纹理边缘, 凸显主体轮廓. 本文利用视神经细胞的内在机制以及神经信息的动态传递过程实现图像轮廓信息的编码与检测, 也为研究后续高级视皮层的视觉感知提供了新思路.
  • 图  1  暗视野调节过程示意图

    Fig.  1  The process of dark field adjustment

    图  2  动态过程编码示意图

    Fig.  2  Dynamic process coding

    图  3  算法流程图

    Fig.  3  Algorithm flowchart

    图  4  RuG40自然图像库的轮廓检测结果; 第一行为自然图像测试集; 第二行为真实轮廓图; 第三行为GD方法检测结果; 第四行为ISO方法检测结果; 第五行为SSC方法检测结果; 第六行为MNC方法检测结果; 第七行为MCI方法检测结果; 第八行为NDC方法检测结果; 第九行为本文方法检测结果.

    Fig.  4  Contour detection results of RuG40 natural image library; the first line is the natural image test sets; the second line is the true contour maps; the third line is the results of GD; the fourth line is the results of ISO; the fifth line is the results of SSC; The sixth line is the results of the MNC; the seventh line is the results of the MCI; the eighth line is the results of NDC; the ninth line is the results of my paper’s method.

    图  5  各算法模型在整个数据集的最优平均P值和单张图片的最优均值

    Fig.  5  The Pvalue of each algorithm model in the entire data set and the optimal average value of a single picture.

    图  6  部分图像在多组参数下检测结果的p值箱线图(G表示GD算法, I表示ISO算法, S表示SSC算法, M表示MNC算法, C表示MCI算法, N表示NDC算法, O表示本文算法)

    Fig.  6  P-value box plot of the detection results of some images under multiple sets of parameters (G represents the GD, I represents the ISO, S represents the SSC, M represents the MNC, C represents the MCI,N represents the NDC, and O represents the algorithm in this paper)

    图  7  BSDS500图像数据集的轮廓检测结果; 第一行为自然图像测试集; 第二行为图像真实轮廓; 第三行为GD方法检测结果; 第四行为ISO方法检测结果; 第五行为SSC方法检测结果; 第六行为MCI方法检测结果; 第七行为MNC方法检测结果; 第八行为NDC方法检测结果; 第九行为本文方法检测结果.

    Fig.  7  Contour detection results of BSDS500 image library; the first line is the natural image test sets; the second line is the true contour maps; the third line is the results of GD; the fourth line is the results of ISO; the fifth line is the results of SSC; The sixth line is the results of the MNC; the seventh line is the results of the MCI; the eighth line is the results of NDC; the ninth line is the results of my paper’s method.

    图  8  BSDS500部分图像在多组参数下检测结果的P值箱线图(G表示GD算法, I表示ISO算法, S表示SSC算法, C表示MCI算法, M表示MNC算法, N表示NDC算法, O表示本文算法)

    Fig.  8  P-value box plot of the detection results of some BSDS500 images under multiple sets of parameters (G represents the GD, I represents the ISO, S represents the SSC, C represents the MCI, M represents the MNC, N represents the NDC, and O represents the algorithm in this paper)

    图  9  各算法模型在BSDS500数据集的最优平均P值和单张图片的最优均值

    Fig.  9  The Pvalue of each algorithm model in the BSDS500 data set and the optimal average value of a single picture.

    表  1  图4中不同算法的参数设置与性能评价指标

    Table  1  Parameters and performance of the different algorihms in Fig. 4

    Image Algorihm Parameter Performance
    $\alpha $ $t$ ${e_{FP}}$ ${e_{FN}}$ $P$ FPS
    Buffalo GD - 0.10 0.35 0.23 0.58 4
    ISO 0.60 0.10 0.25 0.28 0.59 3
    SSC - 0.10 0.27 0.31 0.56 1/8
    MCI 0.80 0.15 0.23 0.27 0.60 1/22
    MNC 0.50 0.30 0.23 0.28 0.63 1/2
    NDC 0.20 0.20 0.25 0.24 0.61 1/19
    Our method 0.20 0.30 0.16 0.27 0.66 1/27
    Elephant2 GD - 0.05 0.74 0.20 0.50
    ISO 0.10 0.05 0.33 0.25 0.59
    SSC - 0.05 0.14 0.32 0.60
    MCI 0.30 0.05 0.31 0.28 0.58
    MNC 0.70 0.20 0.16 0.34 0.62
    NDC 0.60 0.20 0.28 0.27 0.59
    Our method 0.10 0.35 0.22 0.28 0.64
    Gnu GD - 0.05 0.24 0.21 0.63
    ISO 0.10 0.05 0.24 0.29 0.59
    SSC - 0.05 0.14 0.30 0.62
    MCI 0.70 0.10 0.35 0.14 0.65
    MNC 0.50 0.20 0.40 0.21 0.61
    NDC 0.10 0.10 0.24 0.17 0.67
    Our method 0.10 0.20 0.22 0.20 0.69
    Rino GD - 0.05 1.04 0.13 0.45
    ISO 1.00 0.05 0.68 0.18 0.52
    SSC - 0.05 0.38 0.22 0.60
    MCI 0.50 0.05 0.28 0.22 0.62
    MNC 0.60 0.10 0.31 0.31 0.60
    NDC 0.80 0.10 0.31 0.24 0.60
    Our method 0.90 0.15 0.26 0.29 0.63
    Lions GD - 0.05 0.25 0.44 0.49
    ISO 0.20 0.10 0.56 0.28 0.51
    SSC - 0.15 0.70 0.24 0.50
    MCI 0.80 0.15 0.51 0.29 0.51
    MNC 0.90 0.50 0.53 0.31 0.51
    NDC 0.50 0.30 0.54 0.29 0.50
    Our method 0.10 0.30 0.44 0.33 0.54
    下载: 导出CSV

    表  2  图7中不同算法的参数设置与性能评价指标

    Table  2  Parameters and performance of the different algorihms in Fig. 7

    Image Algorihm Parameter Performance
    $\alpha $ $t$ ${e_{FP}}$ ${e_{FN}}$ $P$
    197017 GD - 0.05 0.40 0.28 0.54
    ISO 0.10 0.05 0.38 0.27 0.58
    SSC - 0.10 0.48 0.29 0.53
    MCI 0.30 0.10 0.48 0.19 0.58
    MNC 0.30 0.20 0.54 0.26 0.55
    NDC 0.70 0.15 0.30 0.35 0.59
    Our method 0.50 0.20 0.28 0.34 0.60
    3096 GD - 0.05 0.48 0.03 0.66
    ISO 0.90 0.05 0.13 0.15 0.78
    SSC - 0.05 0.12 0.16 0.78
    MCI 1.00 0.05 0.08 0.27 0.72
    MNC 0.80 0.20 0.17 0.17 0.75
    NDC 1.00 0.50 0.18 0.15 0.77
    Our method 0.60 0.50 0.10 0.19 0.78
    38092 GD - 0.10 0.67 0.16 0.54
    ISO 0.90 0.10 0.31 0.31 0.58
    SSC - 0.10 0.31 0.37 0.53
    MCI 0.10 0.10 0.54 0.28 0.53
    MNC 0.50 0.20 0.60 0.31 0.52
    NDC 0.50 0.15 0.38 0.30 0.59
    Our method 0.10 0.20 0.38 0.29 0.60
    42049 GD - 0.10 0.16 0.05 0.83
    ISO 0.10 0.10 0.09 0.07 0.86
    SSC - 0.30 0.15 0.12 0.78
    MCI 0.20 0.15 0.11 0.11 0.82
    MNC 0.20 0.60 0.15 0.14 0.80
    NDC 0.20 0.55 0.10 0.10 0.85
    Our method 0.20 0.60 0.09 0.10 0.86
    69020 GD - 0.05 0.49 0.20 0.59
    ISO 0.90 0.05 0.14 0.32 0.64
    SSC - 0.05 0.25 0.43 0.52
    MCI 0.60 0.05 0.11 0.21 0.75
    MNC 0.10 0.05 0.07 0.32 0.73
    NDC 0.30 0.10 0.06 0.23 0.79
    Our method 0.10 0.10 0.05 0.25 0.79
    下载: 导出CSV
  • [1] Gupta S, Mazumdar S G. Sobel edge detection algorithm. International journal of computer science and management Research, 2013, 2(2): 1578−1583
    [2] Mcilhagga W. The Canny edge detector revisited. International Journal of Computer Vision, 2011, 91(3): 251−261 doi:  10.1007/s11263-010-0392-0
    [3] Wei H, Lang B, Zuo Q. Contour detection model with multi-scale integration based on non-classical receptive field. Neurocomputing, 2013, 103: 247−262 doi:  10.1016/j.neucom.2012.09.027
    [4] Lin C, Xu G, Cao Y. Contour detection model using linear and non-linear modulation based on non-CRF suppression. IET Image Processing, 2018, 12(6): 993−1003 doi:  10.1049/iet-ipr.2017.0679
    [5] 张明琦, 范影乐, 武薇. 基于初级视通路视觉感知机制的轮廓检测方法. 自动化学报, 2020, 46(2): 264−273

    ZHANG Ming-Qi, FAN Ying-Le, WU Wei. A Contour Detection Method Based on Visual Perception Mechanism in Primary Visual Pathway. Acta Automatica Sinica, 2020, 46(2): 264−273
    [6] Yedjour H, Meftah B, Lézoray O, et al. Edge detection based on Hodgkin–Huxley neuron model simulation. Cognitive processing, 2017, 18(3): 315−323 doi:  10.1007/s10339-017-0803-z
    [7] Kang X, Kong Q, Zeng Y, et al. A fast contour detection model inspired by biological mechanisms in primary vision system. Frontiers in Computational Neuroscience, 2018, 12: 28 doi:  10.3389/fncom.2018.00028
    [8] Fang T, Fan Y, Wu W. Salient contour detection on the basis of the mechanism of bilateral asymmetric receptive fields. SIGNAL IMAGE AND VIDEO PROCESSING, 2020.
    [9] Wassle H, Boycott B B. Functional architecture of the mammalian retina. Physiological reviews, 1991, 71(2): 447−480 doi:  10.1152/physrev.1991.71.2.447
    [10] Lamb T D. Why rods and cones?. Eye, 2016, 30(2): 179 doi:  10.1038/eye.2015.236
    [11] Fried S I, Münch T A, Werblin F S. Mechanisms and circuitry underlying directional selectivity in the retina. Nature, 2002, 420(6914): 411 doi:  10.1038/nature01179
    [12] De Valois R L, Cottaris N P, Mahon L E, et al. Spatial and temporal receptive fields of geniculate and cortical cells and directional selectivity. Vision research, 2000, 40(27): 3685−3702 doi:  10.1016/S0042-6989(00)00210-8
    [13] Liu J, Jia Y. A lateral inhibitory spiking neural network for sparse representation in visual cortex. In:Proceedings of International Conference on Brain Inspired Cognitive Systems . Shenyang, China: Springer-Verlag, 2012.259−267.
    [14] Li Z, Zhang J, Zhang K, et al. Visual tracking with weighted adaptive local sparse appearance model via spatio-temporal context learning. IEEE Transactions on Image Processing, 2018, 27(9): 4478−4489 doi:  10.1109/TIP.2018.2839916
    [15] Alpert S, Galun M, Brandt A, et al. Image segmentation by probabilistic bottom-up aggregation and cue integration. IEEE transactions on pattern analysis and machine intelligence, 2011, 34(2): 315−327
    [16] Anderson A G, Olshausen B A, Ratnam K, et al. A neural model of high-acuity vision in the presence of fixational eye movements. In: Proceedings of 2016 50th Asilomar Conference on Signals, Systems and Computers. CA, USA: IEEE, 2016.588−592.
    [17] Abbott L, Regehr W G. Synaptic computation. Nature, 2004, 431(7010): 796 doi:  10.1038/nature03010
    [18] Poltoratski S, Maier A, Newton A T, et al. Figure-Ground Modulation in the Human Lateral Geniculate Nucleus Is Distinguishable from Top-Down Attention. Current biology: CB, 2019, 29(12): 2051−2057. e3 doi:  10.1016/j.cub.2019.04.068
    [19] Angelucci A, Sainsbury K. Contribution of feedforward thalamic afferents and corticogeniculate feedback to the spatial summation area of macaque V1 and LGN. Journal of Comparative Neurology, 2006, 498(3): 330−351 doi:  10.1002/cne.21060
    [20] Theeuwes J. Top–down and bottom–up control of visual selection. Acta psychologica, 2010, 135(2): 77−99 doi:  10.1016/j.actpsy.2010.02.006
    [21] Grigorescu C, Petkov N, Westenberg M A. Contour detection based on nonclassical receptive field inhibition. IEEE Transactions on Image Processing, 2003, 12(7): 729−739 doi:  10.1109/TIP.2003.814250
    [22] Yang K-F, Gao S-B, Guo C-F, et al. Boundary detection using double-opponency and spatial sparseness constraint. IEEE Transactions on Image Processing, 2015, 24(8): 2565−2578 doi:  10.1109/TIP.2015.2425538
    [23] Yang K-F, Li C-Y, Li Y-J. Multifeature-based surround inhibition improves contour detection in natural images. IEEE Transactions on Image Processing, 2014, 23(12): 5020−5032 doi:  10.1109/TIP.2014.2361210
  • [1] 张明琦, 范影乐, 武薇. 基于初级视通路视觉感知机制的轮廓检测方法[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170688
    [2] 刘强, 方彤, 董一凝, 秦泗钊. 基于动态建模与重构的列车轴承故障检测和定位[J]. 自动化学报, doi: 10.16383/j.aas.c190247
    [3] 王学伟, 王婧, 王琳, 袁瑞铭. 畸变波形m序列动态测试信号建模与电能量值压缩检测方法[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160567
    [4] 齐美彬, 岳周龙, 疏坤, 蒋建国. 基于广义关联聚类图的分层关联多目标跟踪[J]. 自动化学报, doi: 10.16383/j.aas.2017.c150519
    [5] 王鼎, 穆朝絮, 刘德荣. 基于迭代神经动态规划的数据驱动非线性近似最优调节[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160272
    [6] 蒋朝辉, 吴巧群, 桂卫华, 阳春华, 谢永芳. 基于分数阶的多向微分算子的高炉料面轮廓自适应检测[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160621
    [7] 谢昭, 童昊浩, 孙永宣, 吴克伟. 一种仿生物视觉感知的视频轮廓检测方法[J]. 自动化学报, doi: 10.16383/j.aas.2015.c150018
    [8] 林煜东, 和红杰, 陈帆, 尹忠科. 基于轮廓几何稀疏表示的刚性目标模型及其分级检测算法[J]. 自动化学报, doi: 10.16383/j.aas.2015.c130431
    [9] 杨玉珍, 刘培玉, 费绍栋, 张成功. 融合扩展信息瓶颈理论的话题关联检测方法研究[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.00471
    [10] 张桂梅, 张松, 储珺. 一种新的基于局部轮廓特征的目标检测方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.02346
    [11] 赵丛然, 解学军. 具有 iISS 逆动态的非线性系统的输出反馈调节[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.00865
    [12] 段纳, 解学军. 具有iISS未建模动态的非线性系统的状态反馈调节[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.01033
    [13] 杨丹, 王洪星, 张小洪, 闫卫杰. 轮廓曲线的LoG变换及图像共变区域的检测[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00817
    [14] 周雪, 胡卫明. 融合颜色和增量形状先验的目标轮廓跟踪[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.01394
    [15] 苗宇, 苏宏业, 褚健. 非线性动态系统中迭代的同步数据协调与显著误差检测的支持向量回归方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.00707
    [16] 谭博怡, 曾慧, 胡占义. 一种车轮轮廓的自动提取方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2008.00516
    [17] 闫雪华, 解学军, 刘海宽. 具有iISS逆动态非线性系统的分散自适应调节[J]. 自动化学报, doi: 10.3724/SP.J.1004.2008.00167
    [18] 朱建栋, 程兆林. 经输出动态反馈的非线性奇异系统输出调节问题[J]. 自动化学报
    [19] 胡峰, 孙国基, 黄刘生. 动态系统输入环节突发性故障的检测与辨识[J]. 自动化学报
    [20] 张军英, 许进, 保铮. Hopfield网的关联分析[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  9
  • HTML全文浏览量:  2
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-01-20
  • 修回日期:  2020-07-12

基于主视通路结构分级响应模型的轮廓检测方法

doi: 10.16383/j.aas.c200046
    基金项目:  国家自然科学基金资助项目(61501154)资助
    作者简介:

    杭州电子科技大学自动化学院硕士研究生. 2018年获得杭州电子科技大学学士学位. 主要研究方向为计算机视觉, 图像处理. E-mail: 13616821889@163.com

    杭州电子科技大学自动化学院教授. 2001年获浙江大学生物医学工程博士学位. 主要研究方向为神经信息学、机器视觉与机器学习. 本文通信作者. E-mail: fan@hdu.edu.cn

    杭州电子科技大学自动化学院博士研究生. 2015年获得华北水利水电大学学士学位, 目前在杭州电子科技大学攻读博士学位. 主要研究方向为模式识别, 生物启发类算法研究. E-mail: tfyzft@foxmail.com

    杭州电子科技大学自动化学院讲师. 2012年获浙江大学生物医学工程博士学位. 主要研究方向为医学信息学、计算机图像处理. E-mail: ww@hdu.edu.cn

摘要: 基于视通路结构分级响应与动态传递的方式, 本文提出了一种图像轮廓检测的新方法. 针对视网膜感光细胞的暗视觉特性, 建立亮度自适应的暗视野调节模型, 利用多尺度经典感受野的方位选择性, 构建高级轮廓与全局轮廓的检测路径; 模拟LGN细胞特性对信息进行纹理稀疏编码, 并结合非经典感受野的侧抑制作用抑制背景强纹理; 另外在LGN区提出微动整合机制, 减少纹理冗余信息, 再经适应性突触实现信息关联传递; 最后将初级轮廓响应跨视区前馈至V1区并经全局轮廓修正后, 与高级轮廓响应实现快速融合. 分别以RuG40、BSDS500图像库中的自然图像作为实验数据, 检测结果与基准轮廓图的平均最优P指标分别为0.50、0.32, 结果表明本方法能更有效的区分轮廓与纹理边缘, 凸显主体轮廓. 本文利用视神经细胞的内在机制以及神经信息的动态传递过程实现图像轮廓信息的编码与检测, 也为研究后续高级视皮层的视觉感知提供了新思路.

English Abstract

陈树楠, 范影乐, 房涛, 武薇. 基于主视通路结构分级响应模型的轮廓检测方法. 自动化学报, 2020, 41(x): 1−14. doi: 10.16383/j.aas.c200046
引用本文: 陈树楠, 范影乐, 房涛, 武薇. 基于主视通路结构分级响应模型的轮廓检测方法. 自动化学报, 2020, 41(x): 1−14. doi: 10.16383/j.aas.c200046
Chen Shu-Nan, Fan Ying-Le, Fang Tao, Wu Wei. A contour detection method based on hierarchical structure response model in primary visual pathway. Acta Automatica Sinica, 2020, 41(x): 1−14. doi: 10.16383/j.aas.c200046
Citation: Chen Shu-Nan, Fan Ying-Le, Fang Tao, Wu Wei. A contour detection method based on hierarchical structure response model in primary visual pathway. Acta Automatica Sinica, 2020, 41(x): 1−14. doi: 10.16383/j.aas.c200046
  • 轮廓信息作为图像目标的一种低维视觉特征, 不仅将显著影响到后续图像分析和理解的准确性, 而且对从输入层级降低系统的复杂性也具有重要意义.

    以Canny等算子[1, 2]为代表的传统轮廓检测方法, 通常关注于以滑窗为基础的局部邻域梯度特征, 具有较好的数学意义可解释性以及检测效率. 但由于其在分离目标与背景像素时, 忽视了视觉机制在空间关系描述中的重要作用, 因此在对具有纹理背景干扰的图像目标轮廓定位时, 尤其是对于弱对比度图像, 经纹理抑制后将会丢失大量真实轮廓信息.

    随着视觉生理实验及计算神经的发展, 在视通路对视觉信息流的传递和处理过程中, 各种视觉机制被陆续得到验证和应用. 例如有研究考虑视觉神经元非经典感受野(nCRF)对经典感受野(CRF)的调节作用, 通过Gabor滤波器对图像进行不同尺度空间的纹理过滤[3]; 还有研究根据还有研究根据视网膜感受野X-Y通道特性, 分别利用线性与非线性调制感受野外周区的侧抑制作用, 强化轮廓特征信息[4]; 但上述方法都仅从单一感受野特性出发, 难以区分主体弱边缘与背景纹理噪声; 因此有研究进一步模拟初级视通路, 例如对图像时空信息和冗余度进行编码, 强化轮廓信息并提高检测鲁棒性[5]; 也有研究从神经脉冲发放角度出发, 对接收刺激进行HH神经元模型编码, 分别经ON和OFF型感受野作用后, 选取六个方向描述视觉皮层的方向选择性, 在信号传递过程中引入突触的动态可塑性对刺激响应的影响, 最终融合得到最优方位图轮廓特征[6]; 此外还有研究在视觉系统中引入先验滤波以减少信息传递时间, 并利用神经元的相关性以及稀疏编码去除冗余噪声信息, 提高轮廓检测准确性[7]. 上述基于视觉通路的神经计算模型的轮廓提取方法对视觉刺激进行递进加工, 在检测效果上得到了明显的提升, 但必须需要指出的是它们通常只考虑视觉信息流在初级视通路上的串行层级传递过程, 弱化了在单一节点上的多级处理能力, 而且忽略或简化了前级节点对视皮层区的跨视区调制作用, 从而割裂了主体细节与显著特征的关系.

    据目前的生理实验证明, 初级视通路各节点的感受野尺寸以及作用强度等特性并不完全相同[8], 而且传递过程中不仅存在着稀疏性处理、视觉信息整合等多级加工环节, 还存在分支路径以保证视觉信息流的快速感知. 因此本文基于视觉信息流的传递路径, 模拟上述主视通路各环节对信息的编码处理, 分别利用暗视觉适应性调节、神经稀疏性编码、微动响应整合、突触动态传递以及视觉信息流前馈投射传递等视觉机制, 提出了一种新的结构分级响应计算模型, 对自然场景下的目标主体轮廓进行获取. 首先模拟视网膜对视觉信息的暗视野自适应调节机制, 利用其对暗视野的敏锐感知作用加强对图像暗边缘的相对响应强度, 并根据神经节细胞的经典感受野的方向选择特性获取初级轮廓信息; 其次参考外侧膝状体(Lateral geniculate nucleus, LGN)功能, 提出一种将非经典感受野侧抑制与信息稀疏编码相结合的纹理抑制方法, 实现在初级轮廓响应保留更多细节的前提下增强对背景强纹理的抑制效果, 并探究其对微动信息的整合作用, 随后采用动态突触将脉冲响应传递至V1区, 构建成LGN与初级视皮层的动态信息关联模型; 最后提出一种新的视觉融合感知方案, 利用跨视区的神经响应前馈机制对初级轮廓进行修正后, 将两者在初级视皮层区快速融合实现显著轮廓的检测与提取.

    • 视网膜是人类直接接受光源的高级视觉器官, 在其最深处分布着视杆细胞和视椎细胞两种不同类型的感光细胞, 负责将光信号转换成电信号[9], 继而实现神经脉冲发放和信息传递. 研究表明, 视杆细胞作为视觉通路的前级单元, 可以对弱光敏锐感知, 随后激励信号沿着视神经束传至中枢神经系统, 完成对暗视野的视觉调节. 虽然视杆细胞在弱光下的较为敏感但分辨能力较差, 因此本研究如图1暗视野调节计算模型所示, 首先引入去中心的高斯函数对原图滑窗处理, 描述非线性分布的视杆细胞对暗视野的感知作用, 具体计算方法如式(1)~(3)所示:

      图  1  暗视野调节过程示意图

      Figure 1.  The process of dark field adjustment

      $$\left\{ {\begin{split} &\hat G\left( {{x_m},{y_n}} \right) = - \frac{1}{{2\pi \sigma {{\left( {x,y} \right)}^2}}}\exp\\ &\qquad \qquad\;\;\;\;\; \left( { - \frac{{{{\left( {m - r - 1} \right)}^2} + {{\left( {n - r - 1} \right)}^2}}}{{2\sigma {{\left( {x,y} \right)}^2}}}} \right)\\& \qquad \qquad \qquad \qquad \qquad \qquad\; {{\rm{if}}\;\;m,n \ne r + 1}\\ &{\hat G\left( {{x_m},{y_n}} \right) = 0}\qquad \qquad \qquad {{\rm{if}}\;\;m,n = r + 1} \end{split}} \right.$$ (1)
      $${W_{rod}}(x,y) = \sum\limits_{\left( {{x_m},{y_n} \in {S_{xy}}} \right)} {\dfrac{{\hat G({x_m},{y_n})}}{{\max \left( {\hat G({x_m},{y_n})} \right)}}I({x_m},{y_n})} $$ (2)
      $${I_{rod}}(x,y) = \sqrt {{W_{rod}}(x,y)(1 - \dfrac{{I(x,y) - {I_{\min }}}}{{{I_{\max }} - {I_{\min }}}})} $$ (3)

      式中 $(x,y)$ 表示视觉图像的二维坐标, $\left( {{x_m},{y_n}} \right)$ 表示图像局部窗口 ${S_{xy}}$ (以 $\left( {x,y} \right)$ 为中心原点, $d$ 为窗长, $r = \left( {d - 1} \right)/2$ 为半径)内的坐标位置, $\sigma \left( {x,y} \right)$ 表示自适应尺度, $I\left( {x,y} \right)$ 表示输入图像, ${I_{\max }}$ ${I_{\min }}$ 分别为 $I\left( {x,y} \right)$ 的最大值与最小值; ${W_{rod}}(x,y)$ 表示暗视野调节因子, 最后以平方根方式[10]与原图融合得到暗视野调节响应 ${I_{rod}}(x.y)$ .

      考虑亮度信息对于图像边缘轮廓的判断至关重要, 本研究提出一种基于局部亮度特征的自适应尺度计算模型, 实现在图像局部亮度较高的区域, 视杆细胞几乎无响应; 在局部亮度较低的区域, 视杆细胞响应增强, 以此加强图像暗边缘区域的相对响应强度. 本文首先采用改进的亮度特征计算方法获取亮度通道, 统计局部窗口亮度均值并归一化为 ${L_{avg}}$ , 具体定义如式(4)和(5)所示:

      $$L(x,y) = \dfrac{1}{\mu }\sum\limits_{({x_m},{y_n}) \in {S_{xy}}} {\omega ({x_m},{y_n})I({x_m},{y_n})} $$ (4)
      $$\left\{ \begin{split} &\!{L_{\max }} \!=\! \max \!\!\left(\! {\rm{mean}}\!\!\left(\! \bigcup\limits_{1 \le w,h \le d} \!L\!\left( \!{\left( \!{x \!\!-\!\! 1} \right)d \!+\! w, \left( {y \!\!-\!\! 1} \right)d\!\! +\!\! h}\! \right) \!\!\right)\! \!\right)\!\\ &\!{L_{avg}}(x,y) = \frac{1}{{{L_{\max }}}} \times \frac{1}{{{d^2}}}\sum\limits_{({x_m},{y_n}) \in {S_{xy}}} {L({x_m},{y_n})} \end{split} \right.$$ (5)

      其中 $\mu = \sum {_{\left( {{x_m},{y_n}} \right) \in {S_{xy}}}\omega \left( {{x_m},{y_n}} \right)} $ 表示窗口 ${S_{xy}}$ 内的权值总和, 表示 ${S_{xy}}$ 内的像素集合, ${L_{\max }}$ 表示亮度通道 $L(x,y)$ 在各 ${S_{xy}}$ 窗口均值中的极大值, $\max \left( \cdot \right)$ ${\rm{mean}}\left( \cdot \right)$ 分别表示取最大值和均值计算, $\omega ({x_m},{y_n})$ 为一个采用余弦量加权的局部窗口, 如式(6)所示:

      $$\omega ({x_m},{y_n}) \!=\! \dfrac{1}{2}\!\left(\cos\! \left(\!\frac{\pi }{r}\sqrt {{{({x_m} \!- \!x)}^2} \!+ \!{{({y_n}\! - \!y)}^2}} \right) \!\!+ \!1\!\right)$$ (6)

      以中心区感受野大小为单位, 考虑其半径至少为外周区的1/2, 因此采用经修正改进的S形函数对 ${L_{avg}}$ 进行激活响应, 实现对尺度的动态约束, 可表示为:

      $$\sigma (x,y) = 0.5 + \dfrac{1}{{1 + \exp ({L_{avg}}(x,y))}}$$ (7)
    • 在神经节细胞、LGN及初级视皮层V1区中, 神经细胞都会对特定朝向的条状刺激产生激励反应, 称之为方向选择性[11, 12]. 本文采用二维高斯导函数模拟多方向的刺激响应, 如式(8)所示:

      $$\left\{ \begin{array}{l} \!\!\!g(\tilde x,\tilde y;\theta ,{\sigma _{{\rm{CRF}}}}) = \dfrac{1}{{2\pi {\sigma _{{\rm{CRF}}}}^2}}\exp \left( - \dfrac{{\tilde x + {\gamma ^2}{{\tilde y}^2}}}{{2{\sigma _{{\rm{CRF}}}}^2}}\right)\\ \!\!\!{e_i}(x,y;{\theta _i},{\sigma _{{\rm{CRF}}}})\! \!=\!\! \left| {{I_{rod}}(x,y) \!*\! \dfrac{{\partial g(\tilde x,\tilde y;{\theta _i},{\sigma _{{\rm{CRF}}}})}}{{\partial x}}} \right|\\[-10pt] \end{array} \right.$$ (8)

      式中 $\tilde x = x\cos \theta + y\cos \theta $ , $\tilde y = - x\sin \theta + y\cos \theta $ , $ * $ 表示卷积运算, $g$ 表示二维高斯函数, ${\theta _i}$ 表示第i个朝向, ${\sigma _{{\rm{CRF}}}}$ 表示神经节细胞经典感受野尺寸, $\gamma $ 表示感受野的椭圆率. 后根据Winner-take-all原则选取 ${N_\theta }$ 个方位响应最大值构成初级轮廓边界响应, 如式(9)所示:

      $${E_1}(x,y)\! = \!\max \!\left\{ {{e_i}(x,y;{\theta _i},{\sigma _{_{{\rm{CRF}}}}})\left| {i \!=\! 1,2, \cdots ,{N_\theta }}\! \right.} \right\}$$ (9)

      在视通路中, 更高级的神经元往往会具有更复杂且范围更大的感受野, 如LGN细胞与神经节细胞虽结构相似, 但前者的感受野尺度更大. 此外, 初级视皮层V1区存在简单细胞和复杂细胞, 但对方向和位置的敏感度两者并不相同. 一系列生理研究表明, 视通路对光反射的刺激传递过程是一个多尺度、多朝向、高效率等复杂特性叠加的过程. 本文为表征此特性对轮廓检测的全局作用性, 在式(8)基础上, 进一步考虑多尺度方位特性, 建立多维模型, 如式(10)所示:

      $${e_{ij}}(x,y;{\theta _i},{\sigma _j}) = \left| {{I_{rod}}(x,y) * \frac{{\partial g(\tilde x,\tilde y;{\theta _i},{\sigma _j})}}{{\partial x}}} \right|$$ (10)

      式中 ${\theta _i}$ ${\sigma _j}$ 分别表示经典感受野的第i个朝向和第j个尺度.

      信息由视网膜处理经视神经纤维向两侧膝状体投射, 之后经各类神经细胞将此信号向初级视皮层和更高级的视觉中枢投射, 完成对颜色、运动、亮度和其他深度视觉信息感知. 为保留上述多级感受野的作用, 本文使用主成分分析法模拟视通路对多尺度方位复杂信号的投射特性, 以及皮层视区对视觉信息的快速理解能力. 通过提取 $i \times j$ 个成分分量 ${P_s}$ 并取最大值, 获得包含不同尺度大小、不同方位敏感特征, 构造全局轮廓信息检测路径, 如式(11)所示:

      $${E_2}(x,y) = \max ({P_s}\left| {s = 1,2,\cdots ,i \times j)} \right.$$ (11)

      其中 $s$ 表示成分分量的序号, ${E_2}(x,y)$ 表示全局轮廓信息.

    • 稀疏表示已被证实是许多感觉神经系统中的常见现象[13], 视神经节细胞的数量相比感光细胞少了近百倍, LGN相较于前级在神经元数量级上也显著减少, 但视觉信息在视通路上仍然可以进行快速高效地传递. 在神经生理实验中发现, 神经元集群中一般仅有少部分神经元会伴随着刺激而产生响应. 因此在视觉通路上, 神经元具有响应稀疏特性, 这也是是视觉系统处理冗余信息的一种有效策略和方法. 稀疏编码也常被用于区分目标与背景[14], 例如Alpert[15]等使用了稀疏度量方法, 如式(12)所示:

      $$sparsity(x,y) = \frac{1}{{\sqrt n - 1}}\left( {\sqrt n - \frac{{{{\left\| {\vec h(x,y)} \right\|}_1}}}{{{{\left\| {\vec h(x,y)} \right\|}_2}}}} \right)$$ (12)

      式中 $\vec h(x,y)$ 表示为局部窗口区域的直方图, $n$ $\vec h(x,y)$ 的维度, ${\left\| \cdot \right\|_p}$ $p$ 范数. 该方法仅从像素统计量考虑局部稀疏度, 忽略了像素在空间上的区域性分布特征对神经元刺激所带来的影响. 因此本文在此基础上引入局部变异系数, 改善视觉神经元对图像轮廓和纹理的差异感知能力, 计算方法如式(13)所示:

      $$f(x,y) = sparsity(x,y) \times \dfrac{{{\delta ^2}(x,y)}}{{\mu (x,y)}}$$ (13)

      其中, ${\delta ^2}(x,y)$ $\mu (x,y)$ 分别表示 ${I_{rod}}\left( {x,y} \right)$ 在局部窗口 ${S_{xy}}$ 内的方差和均值, $f(x,y)$ ${E_{\rm{1}}}\left( {x,y} \right)$ 强纹理区域的稀疏表达. 前项 $sparsity(x,y)$ 对于包含轮廓区域的边缘响应分布具有高稀疏度, 而后项通常可定性刻画边缘区与平滑区, 将两者结合能有效地避免轮廓响应细节信息的丢失以及纹理边缘受到过度抑制.

      在对视觉信息流进行稀疏处理后, 考虑到非经典感受野的对视觉信号具有侧抑制作用, 本文采用各向同性抑制方法刻画LGN的非经典感受野特征, 进一步减弱纹理边缘响应, 如式(14)所示.

      $$\left\{ \begin{split} &b(x,y) = {E_1}(x,y) * \varphi (x,y)\\ &\varphi (x,y) = \dfrac{1}{{{{\left\| {{\rm{Do}}{{\rm{G}}^ + }(x,y)} \right\|}_1}}}{\rm{Do}}{{\rm{G}}^ + }(x,y)\\ &{\rm{Do}}{{\rm{G}}^ + }\left( {x,y} \right) = \max \left\{ {{\rm{DoG}}\left( {x,y} \right),0} \right\}\\ &{\rm{DoG}}\left( {x,y} \right) = \dfrac{1}{{2\pi \left( {4{\sigma _{{\rm{CRF}}}}^2} \right)}}\exp \left( { - \dfrac{{{x^2} + {y^2}}}{{2\left( {4{\sigma _{{\rm{CRF}}}}^2} \right)}}} \right) - \\ &\qquad\qquad\quad\;\;\dfrac{1}{{2\pi {\sigma _{{\rm{CRF}}}}^2}}\exp \left( { - \dfrac{{{x^2} + {y^2}}}{{2{\sigma _{{\rm{CRF}}}}^2}}} \right)\\ \end{split} \right.$$ (14)

      式中 ${\rm{DoG}}\left( {x,y} \right)$ 表示高斯差函数, 经半波整流后得到 ${\rm{Do}}{{\rm{G}}^ + }\left( {x,y} \right)$ , $b(x,y)$ 表示纹理抑制项, 由初级轮廓响应 ${E_1}(x,y)$ 与距离抑制权重 $\varphi (x,y)$ 卷积获得.

      最后根据式(15)得到经协同纹理抑制后的轮廓信息:

      $$\left\{ \begin{split} &\!C\left( {x,y;\alpha } \right) \!=\! \max \left\{ {{E_1}(x,y) \!-\! \alpha \left( {b(x,y){\rm{ \!+\! }}{f'}(x,y)} \right),0} \right\}\\ &\!{f'}(x,y) = resize\left( {f(x,y)} \right) \end{split} \right.$$ (15)

      其中 $\alpha $ 表示非经典感受野抑制强度, $resize$ 表示双线性插值运算.

    • 当信息流传递至LGN时, 视觉系统能利用感受野对其进行时空整合, 实现对有效特征(空间频率、颜色、视差等)的高效编码, 图2为本文动态过程编码部分结果. 本文首先采用LIF(Leaky Integrate and Fire neurons)漏放电积分模型构建外膝体环节的神经元网络, 以某一响应周期 $T$ 内神经元脉冲发放频率对突触激励响应进行神经编码, 同时考虑绝对不应期, 如式(16)所示.

      图  2  动态过程编码示意图

      Figure 2.  Dynamic process coding

      $$\left\{ {\begin{split} & {{c_m}\frac{{dv}}{{dt}} = - {g_1}v + {I_e}{\rm{ (if }}ref = 0{\rm{)}}} \\ &{v = {v_{{\rm{reset}}}},ref = ref - 1{\rm{ (if }}ref \ne 0{\rm{)}}} \\ & {v = {v_g},ref = {\rm{const (if }}v > {v_{th}}{\rm{)}}} \end{split}} \right.$$ (16)

      式中, ${c_m}$ ${g_1}$ 分别为神经元的膜电容和漏电导, $v$ 是神经元膜电压; ${I_e}$ 表示为式(15)中的 $C\left( {x,y;\alpha } \right)$ 所对应的激励电流. ${v_{th}}$ 为脉冲发放阈值, ${v_{{\rm{reset}}}}$ 为静态电势, $ref$ 为绝对不应期, ${v_g}$ 为刺激脉冲发放峰值. 在激励电流 ${I_e}$ 刺激下, 当膜电压 $v$ 达到阈值 ${v_{th}}$ 时神经元将会瞬间发放 ${v_g}$ 大小的脉冲响应, 同时又将被重置为 ${v_{{\rm{reset}}}}$ 进入绝对不应期, 最终得到脉冲激励响应 ${I_{{\rm{Fires}}}}\left( {x,y} \right)$ .

      视通路端到端且按环节的传递方式, 使得前级视觉激励通常在经过后级处理后能表达更为有效的信息, 而视觉系统的初始信息几乎都源自于人眼固视微动. 微动作为视觉系统最基本的状态模式, 能够在视网膜神经节细胞反应能力有限的情况下帮助快速获取更多的视觉信息[16]. 鉴于LGN环节的高效视觉整合能力, 本文引入LGN神经元对微动视觉特征的整合作用, 突出轮廓信息并抑制细纹理的神经脉冲发放响应强度(如图2(b)), 具体操作如式(17)~(18)所示:

      $$\left\{ {\begin{split} & {{I_{{\theta _i}}}(x + {p_i} \times dx,y + {q_i} \times dy) = \left[ {{I_{{\rm{Fires}}}}{{(x,y)}^{1/2}}} \right]} \\ &{{\theta _i} = \arctan \frac{{{p_i}}}{{{q_i}}}} \\ \end{split}} \right.$$ (17)
      $${I_{{\rm{move}}}}\!\left( {x,y} \right) \!=\! {I_{{\rm{Fires}}}}\!\left( {x,y} \right) \!\!-\! \min \!\left\{ {{\!I_{{\theta _i}}}\!\left(\! {x,y} \!\right)\!\left| {i\! =\! } \right.1,2, \cdots ,8} \right\}\\$$ (18)

      式中 ${I_{{\theta _i}}}\left( {x,y} \right)$ 为多方向微动的神经元响应, 其中 ${\theta _i}$ 表示由 ${p_i}$ ${q_i}$ 所确定的8个微动方向, $\left[ \cdot \right]$ 表示向下取整, dxdy决定分别代表水平和竖直方向的微动尺度, 得到经整合后的脉冲频率响应 ${I_{{\rm{move}}}}\left( {x,y} \right)$ .

      信息经LGN传递至初级视皮层的过程中, 突触将神经元间的冲动相互联系, 其连接权值可针对突变刺激实现自适应性的改变[17], 在一定程度上提高响应效率和差异感知能力. 本文在编码过程中充分考虑感受野内神经元的空间关系和激励响应频率差异, 探究频域和空域两方面对突触连接强度的影响, 具体如式(19)所示:

      $$\begin{split}{W_{{\rm{synapse}}}}(x,y) =& {W_{{\rm{const}}}}\exp\\ &\!\left [\! - \!\left( \!\begin{array}{l} \dfrac{{{{\left| {P(x,y)\! -\! P({x_c},{y_c})} \right|}^2}}}{{2{\rm{R}}{{\rm{F}}_{\rm{r}}}^2}} \!-\! \\ \dfrac{{{{\left| {{I_{{\rm{move}}}}(x,y) \!-\! {I_{{\rm{move}}}}({x_c},{y_c})} \right|}^2}}}{{2\Delta {I_{{\rm{move}}}}^2}} \end{array}\! \right)\!\right]\!\end{split}$$ (19)

      式中, ${W_{{\rm{const}}}}$ 表示强度调节常量, $\left| P(x,y) -P({x_c}, {y_c}) \right|$ $\left| {{I_{{\rm{move}}}}(x,y) - {I_{{\rm{move}}}}({x_c},{y_c})} \right|$ 分别表示群体感受野周边与中心的空间距离和神经元脉冲频率差异, ${\rm{R}}{{\rm{F}}_{\rm{r}}}$ 是神经元群体感受野半径, $\Delta {I_{{\rm{move}}}}$ 表示群体感受野内神经元脉冲频率响应的最大差值.

      最后通过动态突触权值与微动调节下的神经元脉冲响应频率卷积运算, 实现神经元的动态传递编码(如图2(c)), 如式(20)所示.

      $${I_{{\rm{V1}}}}(x,y) = {I_{{\rm{move}}}}\left( {x,y} \right) * {W_{{\rm{synapse}}}}\left( {x,y} \right)$$ (20)
    • 相关生理研究表明, 在视通路中视觉信息流存在两条传递路径. 第一条路径中几乎所有外界光刺激在视神经感知及视交叉作用后, 经过外膝体区后投射至初级视皮层[18], 但存在少数神经响应不受外膝体环节处理, 经上丘、丘脑枕后抵达视觉皮层构成第二路径, 这一信息传递与处理过程是一个涉及复杂神经网络的动力学过程. 还有研究发现外膝体不仅是前后视觉信息的并行处理和层级传递关键, 实际上视觉皮层还与其存在反馈神经关联[19], 使得外膝体能够获得来自V1区的投射. 此外, 视觉通路中还存在自上向下及自下向上的途径[20], 实现高级视皮层对信息流的快速且高效地理解, 并对低级皮层实现调控作用.

      综上所述, 视觉通路上信息同时存在并行与串行处理方式, 而且兼具跨区域的前馈与反馈机制, 这有利于视皮层对细节信息更高分辨率的感知, 强化主体轮廓信息. 本文在初级视皮层V1区, 利用多方向尺度快速投射的全局轮廓信息, 对直接前馈的初级轮廓响应进行修正, 并与经视通路多环节处理的动态脉冲响应结果快速点乘融合, 加强视觉系统对轮廓的显著性注意作用, 具体实现如式(21)所示:

      $$SE\left( {x,y} \right) = \left( {{E_1}\left( {x,y} \right) + {E_2}\left( {x,y} \right)} \right) \times {I_{{\rm{V1}}}}(x,y)$$ (21)

      式中 ${E_{\rm{1}}}\left( {x,y} \right)$ 表示初级轮廓响应, ${E_{\rm{2}}}\left( {x,y} \right)$ 表示全局轮廓信息, ${I_{{\rm{V1}}}}(x,y)$ 表示动态脉冲响应结果, $SE\left( {x,y} \right)$ 表示在初级视皮层轮廓融合归一化后的结果.

    • 结合信息流在视通路中不同环节具有不同的处理加工方式特点, 对本文轮廓检测算法进行如下描述:

      1)根据视网膜视杆细胞的暗视觉敏感特性, 通过式(4)~(7)所提取的加权亮度通道构建动态尺寸计算模型, 然后按式(1)~(3)模拟对视觉信息的暗视野动态调节.

      2)基于经典感受野的方向选择性以及多尺度特性. 首先按式(8)和(9)模拟神经节细胞对轮廓的初级感知, 然后考虑不同组织结构的感受野具有不同的尺度大小, 按式(10)和(11)构建感受野多方向尺度投射模型(图3虚线部分), 获得全局轮廓信息.

      图  3  算法流程图

      Figure 3.  Algorithm flowchart

      3)根据LGN细胞的稀疏传递和非经典感受野的侧抑制特性, 分别按式(12)和(13)实现对初级轮廓响应的强纹理稀疏表达, 按式(14)实现各向同性抑制, 随后按式(15)将两者以 $\alpha $ 抑制强度融合, 突出主体轮廓信息.

      4)基于LGN对多视觉特征的处理能力以及其和主视皮层的动态关联特性, 首先按式(16)对轮廓响应进行脉冲频率响应编码, 再将编码结果按式(17)和(18)对微动信息进行整合处理, 最后按式(19)和(20)模拟LGN将脉冲响应刺激动态传递至初级视皮层.

      5)引入视觉系统的跨视区多通路前馈机制, 按式(21)将初级轮廓响应经全局轮廓信息修正后, 与视皮层区的脉冲响应输出快速融合. 再经过非极大值抑制和滞后阈值处理, 得到最终的二值轮廓响应图.

      本文整体算法流程如图3所示.

    • 自然场景下的图像往往具有强噪声干扰特性, 且主体与背景间易发生轮廓粘连. 本文使用了包含40张灰度图像的RuG40自然场景图像数据库(http://www.cs.rug.nl/imaging/), 每幅图像有一张手工绘制的二值基准轮廓图, 用于评估本文方法的有效性.

      为保证本文后续算法的可行性, 首先用经二维高斯导函数GD处理, 但未经视皮层神经加工的轮廓响应与本文算法对比; 其次选择文献[21]中提出的各向同性抑制模型ISO, 体现本文纹理抑制方法的优越性; 然后根据文献[22]的方法, 除去彩色图像下的颜色双拮抗机制, 仅考虑灰度图像在空间稀疏性约束条件下的轮廓检测方法SSC, 突出变异系数调制对纹理稀疏编码的作用; 再选择文献[5]中提出的基于初级视通路编码模型MNC, 证明本文纹理抑制方法与分级结构模型的优越性; 然后与文献[23]中的基于多特征抑制的轮廓检测模型MCI比较; 最后以本文算法为基础, 去除神经元动态编码的模型NDC比较, 验证算法的后续有效性. 本文中二维高斯导尺度 ${\sigma _{{\rm{CRF}}}}$ =1.5, DoG中的CRF和nCRF大小分别为2和8, $\gamma $ =0.5, 共选取 ${N_\theta }$ =16个滤波器朝向, 同时等间隔选取多个LGN中的nCRF抑制强度系数 $\alpha {\rm{ = }}\left[ {{\rm{0}}{\rm{.1:0}}{\rm{.1:1}}{\rm{.0}}} \right]$ . 为将最终轮廓检测结果与二值标准轮廓进行定量计算, 需要对轮廓响应进行非极大值抑制处理和滞后阈值处理, 上限阈值 $t = \left[ {0.05:0.05:1.0} \right]$ . 由于GD方法和SSC方法不考虑 $\alpha $ 值, 仅得到20组测试数据, ISO、MNC、MCI、NDC以及本文方法可以分别得到200组数据.

      图4结果可知, 仅采用GD算法处理提取的轮廓较为完整, 但存在过多的细纹理导致部分细节信息冗余, 轮廓模糊. ISO算法由于引入了非经典感受野的侧抑制作用, 相较于GD算法背景纹理得到了较好的抑制, 但干扰了部分主体轮廓, 造成弱轮廓区域的信息丢失; SSC算法通过构建空间稀疏约束模型实现去除显著的大纹理区域, 但其未考虑轮廓各区间的联系, 检测结果存在较多的边缘毛刺并且轮廓出现断裂情况; MNC算法进一步引入了冗余度编码等方法, 一定程度上保留了更多目标主体轮廓信息但同时也产生了新的纹理噪声; MCI算法以尺度为指导条件, 融合了朝向、亮度、对比度三种特征, 加强了轮廓信息同时也丢失了较多细节; NDC算法由于并未考虑神经元突触之间的相互关联性, 在纹理抑制和轮廓加强之间较难均衡, 造成轮廓信息割裂; 而本文方法将LGN对信息的多层级处理方式和与初级视皮层的动态关联性相结合, 所获得的最终轮廓检测结果在保持主体轮廓完整的前提下, 纹理相对较少. 其相较于GD、ISO、MNC方法有更强的纹理抑制强度, 相对SSC、MCI、NDC方法有更加平滑完整的目标轮廓.

      图  4  RuG40自然图像库的轮廓检测结果; 第一行为自然图像测试集; 第二行为真实轮廓图; 第三行为GD方法检测结果; 第四行为ISO方法检测结果; 第五行为SSC方法检测结果; 第六行为MNC方法检测结果; 第七行为MCI方法检测结果; 第八行为NDC方法检测结果; 第九行为本文方法检测结果.

      Figure 4.  Contour detection results of RuG40 natural image library; the first line is the natural image test sets; the second line is the true contour maps; the third line is the results of GD; the fourth line is the results of ISO; the fifth line is the results of SSC; The sixth line is the results of the MNC; the seventh line is the results of the MCI; the eighth line is the results of NDC; the ninth line is the results of my paper’s method.

      由于基于视觉机制的轮廓检测方法中, 不同计算模型基于不同的机制, 通常设置相应的Sigma尺度, 或者有不同的weight权重, 以及一些模型独有的参数, 所以通常采用最优P值及其他性能指标去评价模型的性能优劣.

      为更为直观的定量分析轮廓检测效果, 本文采用Grigorescu等在文献[21]中提出的方法进行计算, 但最终的轮廓结果相对于基准轮廓图的像素位置会存在一定范围内的可控偏差. 因此实验认为, 若检测到某像素出现基准轮廓像素的5×5邻域内, 则认为该像素点为检测正确. 记 ${E_D}$ ${E_{GT}}$ 分别为算法检测到的轮廓像素集和基准轮廓像素集, 可得算法所正确检测到的像素集 $E{\rm{ = }}{E_D} \cap \left( {{E_{GT}} \oplus T} \right)$ ( $ \oplus $ 表示为膨胀操作, $T$ 为5×5的结构单元); 错检的像素集为 ${E_{FP}} = {E_D} - E$ ; 漏检的像素集为 ${E_{FN}} = {E_{GT}} - \left( {{E_{GT}} \cap \left( {{E_D} \oplus T} \right)} \right)$ . 据此, 可由式(22)~(24)得评价指标误检率 ${e_{FP}}$ 、漏检率 ${e_{FN}}$ 和整体性能指标 $P$ :

      $${e_{FP}} = card\left( {{E_{FP}}} \right)/card\left( E \right)$$ (22)
      $${e_{FN}} = card\left( {{E_{FN}}} \right)/card\left( {{E_{GT}}} \right)$$ (23)
      $$P = \dfrac{{card\left( E \right)}}{{card\left( E \right) + card\left( {{E_{FP}}} \right) + card\left( {{E_{FN}}} \right)}}$$ (24)

      式中, $card\left( C \right)$ 为集合 $C$ 中的元素个数. 公式表明, 误检率 ${e_{FP}}$ 越小则背景纹理越少, 漏检率 ${e_{FN}}$ 越小则对象轮廓保留的越多, 具体计算结果如表1所示.

      表 1  图4中不同算法的参数设置与性能评价指标

      Table 1.  Parameters and performance of the different algorihms in Fig. 4

      Image Algorihm Parameter Performance
      $\alpha $ $t$ ${e_{FP}}$ ${e_{FN}}$ $P$ FPS
      Buffalo GD - 0.10 0.35 0.23 0.58 4
      ISO 0.60 0.10 0.25 0.28 0.59 3
      SSC - 0.10 0.27 0.31 0.56 1/8
      MCI 0.80 0.15 0.23 0.27 0.60 1/22
      MNC 0.50 0.30 0.23 0.28 0.63 1/2
      NDC 0.20 0.20 0.25 0.24 0.61 1/19
      Our method 0.20 0.30 0.16 0.27 0.66 1/27
      Elephant2 GD - 0.05 0.74 0.20 0.50
      ISO 0.10 0.05 0.33 0.25 0.59
      SSC - 0.05 0.14 0.32 0.60
      MCI 0.30 0.05 0.31 0.28 0.58
      MNC 0.70 0.20 0.16 0.34 0.62
      NDC 0.60 0.20 0.28 0.27 0.59
      Our method 0.10 0.35 0.22 0.28 0.64
      Gnu GD - 0.05 0.24 0.21 0.63
      ISO 0.10 0.05 0.24 0.29 0.59
      SSC - 0.05 0.14 0.30 0.62
      MCI 0.70 0.10 0.35 0.14 0.65
      MNC 0.50 0.20 0.40 0.21 0.61
      NDC 0.10 0.10 0.24 0.17 0.67
      Our method 0.10 0.20 0.22 0.20 0.69
      Rino GD - 0.05 1.04 0.13 0.45
      ISO 1.00 0.05 0.68 0.18 0.52
      SSC - 0.05 0.38 0.22 0.60
      MCI 0.50 0.05 0.28 0.22 0.62
      MNC 0.60 0.10 0.31 0.31 0.60
      NDC 0.80 0.10 0.31 0.24 0.60
      Our method 0.90 0.15 0.26 0.29 0.63
      Lions GD - 0.05 0.25 0.44 0.49
      ISO 0.20 0.10 0.56 0.28 0.51
      SSC - 0.15 0.70 0.24 0.50
      MCI 0.80 0.15 0.51 0.29 0.51
      MNC 0.90 0.50 0.53 0.31 0.51
      NDC 0.50 0.30 0.54 0.29 0.50
      Our method 0.10 0.30 0.44 0.33 0.54

      据表可知, 定量计算结果与上述定性分析结果大致相同. GD算法对于目标突出的自然图像所提取的轮廓比较完整, 漏检率 ${e_{FN}}$ 较小而误检率 ${e_{FP}}$ 偏大, 但对于如Lions纹理复杂的图像, 该算法漏检率更大, 可能因为主体与背景纹理过于接近而无法准确获取轮廓信息. SSC算法在几幅图中表现出较高的漏检率和较低的误检率, 表明其根据数学空间的稀疏约束方法, 虽然加强了纹理噪声的抑制, 但并没能准确地区分纹理区和轮廓区, 导致伴随着背景强纹理受到抑制的同时, 主体轮廓信息也发生了丢失. ISO、MNC和MCI算法都是从视觉机制出发, 相对于GD算法误检率有所降低, 并且和漏检率之间保持一定平衡. ISO算法采用Gabor滤波器模拟经典感受野的朝向特性提取图像轮廓, 再考虑非经典感受野的侧抑制作用实现纹理抑制, 其相比GD算法更稳定有效, 但却忽略了视通路层级传递的特性, 实现方法过于简单使得背景纹理抑制强度有限. MNC算法基于初级视通路视觉感知机制, 在ISO算法基础上引入了时空编码, 辐射区冗余度增强编码等方法, 对于具有复杂背景的图像, 检测结果的轮廓信息较为完整, 但同时含有较多的背景纹理导致误检率 ${e_{FP}}$ 偏高. MCI算法基于初级视皮层V1区感受野的神经元反应, 综合考虑了多种局部特征以提高轮廓检测性能, 但由于其通过组合权重的方式进行图像融合, 最终提取的轮廓不够精准, 部分细节存在丢失现象, 相较于本文方法误检率偏高. NDC是在本文算法基础上, 去掉神经元动态编码后的算法模型, 其提取的轮廓在部分区域存在断裂情况, 验证了神经元动态编码过程对于难以均衡 ${e_{FP}}$ ${e_{FN}}$ 导致最终P值相比本文算法有所降低, 验证了本文算法模型的有效性. 总体而言, 上述六种算法P值均劣于本文方法. 本文方法将输入图像经暗视野调节后, 结合了稀疏编码与非经典感受野对纹理的抑制作用以及微动视觉信息整合机制, 充分反映了LGN对视觉特征的高效处理能力, 然后引入神经元动态编码过程以及跨视区前馈融合方法, 检测结果在背景纹理得到抑制的同时, 轮廓也较完整清晰, 对比上述其他算法具有一定优势.

      本文为各算法引入FPS指标(每秒处理的图像数量), 由于RuG40数据集各图像较为近似, 本文仅以Buffalo图像参照说明. 观察表1可知, GD和ISO算法FPS较高, 但是在检测效果上较差, 而SSC和MNC算法能够较好地均衡了处理速率与检测效果, 但轮廓检测性能有限. 通过NDC、MCI与本文算法FPS指标相比较可得, 本文算法在进一步深化视觉机制的加工过程中, 在运行速度基本保持不变的情况下, 实现检测效果和鲁棒性能的提升.

      上述实验仅包含部分图像数据, 因此为验证本文方法针对整体数据集的有效性, 需进一步定量分析各个算法在RuG40图像库上的测试效果. 如图5所示, 其中蓝色柱状表示整个数据集在最优参数下的P值, 橙色柱状表示每张图片的最优P值的均值, 由于不同图像间存在像素差异, 故单张图片最优平均P值(橙色)总是更大. 据该图可知, 各算法结果与上述分析结果基本一致, 且本文方法在整体图像库指标和单张图片指标的表现上均更优.

      图  5  各算法模型在整个数据集的最优平均P值和单张图片的最优均值

      Figure 5.  The Pvalue of each algorithm model in the entire data set and the optimal average value of a single picture.

      此外本文在多组参数条件下, 利用轮廓检测算法对其他部分自然图像进行性能测试, 并将结果p值以箱线图(图6)方式统计. 图中箱体顶部表示在排除异常值后的最优结果, 箱体中部横线表示p值中位数. 根据该7张图像的测试结果可知, 本文算法均有较好的性能.

      图  6  部分图像在多组参数下检测结果的p值箱线图(G表示GD算法, I表示ISO算法, S表示SSC算法, M表示MNC算法, C表示MCI算法, N表示NDC算法, O表示本文算法)

      Figure 6.  P-value box plot of the detection results of some images under multiple sets of parameters (G represents the GD, I represents the ISO, S represents the SSC, M represents the MNC, C represents the MCI,N represents the NDC, and O represents the algorithm in this paper)

      为进一步突出算法模型的轮廓检测效果及其性能, 本文另针对BSDS500数据库图集随机选择5张图片进行结果展示以及定量分析, 如图7表2所示. 其中GD算法依旧无法区分主体对象轮廓与背景纹理的差异, 因此总具有较高的误检率 ${e_{FP}}$ ; ISO在此基础上利用非经典感受野的侧抑制特性, 有效减弱了图像强纹理噪声的响应, 降低了 ${e_{FP}}$ , 却由于割裂了主体与背景的主次关系导致漏检率 ${e_{FN}}$ 上升; SSC算法的稀疏约束模型虽然进一步弱化了纹理响应, 但也丢失了较多复杂主体对象的轮廓信息, 例如在第3和第5幅图中, 部分主体轮廓的丢失导致了漏检率的升高, ; MCI、MNC算法所引入的多特征、多机制等视觉结构模型, 在对目标的轮廓检测结果上相较于上述算法更为优异, 但在轮廓细节检测以及纹理抑制上还存在不足, 因此 ${e_{FP}}$ 总高于本文算法; NDC算法利用暗视野调节、改进的稀疏编码等方法, 更加有效地强化了主体轮廓, 抑制了强、弱纹理响应; 本文算法利用所提出地神经元动态传递编码, 更进一步提高了P值, 降低了 ${e_{FN}}$ ${e_{FP}}$ . 据以上分析, 本算法在背景纹理抑制, 以及轮廓检测完整性方面表现更加有效, 所提出的相关实验步骤对于图像显著轮廓的检测和强纹理噪声的抑制作用也较为明显, 整体表现更为优异.

      图  7  BSDS500图像数据集的轮廓检测结果; 第一行为自然图像测试集; 第二行为图像真实轮廓; 第三行为GD方法检测结果; 第四行为ISO方法检测结果; 第五行为SSC方法检测结果; 第六行为MCI方法检测结果; 第七行为MNC方法检测结果; 第八行为NDC方法检测结果; 第九行为本文方法检测结果.

      Figure 7.  Contour detection results of BSDS500 image library; the first line is the natural image test sets; the second line is the true contour maps; the third line is the results of GD; the fourth line is the results of ISO; the fifth line is the results of SSC; The sixth line is the results of the MNC; the seventh line is the results of the MCI; the eighth line is the results of NDC; the ninth line is the results of my paper’s method.

      表 2  图7中不同算法的参数设置与性能评价指标

      Table 2.  Parameters and performance of the different algorihms in Fig. 7

      Image Algorihm Parameter Performance
      $\alpha $ $t$ ${e_{FP}}$ ${e_{FN}}$ $P$
      197017 GD - 0.05 0.40 0.28 0.54
      ISO 0.10 0.05 0.38 0.27 0.58
      SSC - 0.10 0.48 0.29 0.53
      MCI 0.30 0.10 0.48 0.19 0.58
      MNC 0.30 0.20 0.54 0.26 0.55
      NDC 0.70 0.15 0.30 0.35 0.59
      Our method 0.50 0.20 0.28 0.34 0.60
      3096 GD - 0.05 0.48 0.03 0.66
      ISO 0.90 0.05 0.13 0.15 0.78
      SSC - 0.05 0.12 0.16 0.78
      MCI 1.00 0.05 0.08 0.27 0.72
      MNC 0.80 0.20 0.17 0.17 0.75
      NDC 1.00 0.50 0.18 0.15 0.77
      Our method 0.60 0.50 0.10 0.19 0.78
      38092 GD - 0.10 0.67 0.16 0.54
      ISO 0.90 0.10 0.31 0.31 0.58
      SSC - 0.10 0.31 0.37 0.53
      MCI 0.10 0.10 0.54 0.28 0.53
      MNC 0.50 0.20 0.60 0.31 0.52
      NDC 0.50 0.15 0.38 0.30 0.59
      Our method 0.10 0.20 0.38 0.29 0.60
      42049 GD - 0.10 0.16 0.05 0.83
      ISO 0.10 0.10 0.09 0.07 0.86
      SSC - 0.30 0.15 0.12 0.78
      MCI 0.20 0.15 0.11 0.11 0.82
      MNC 0.20 0.60 0.15 0.14 0.80
      NDC 0.20 0.55 0.10 0.10 0.85
      Our method 0.20 0.60 0.09 0.10 0.86
      69020 GD - 0.05 0.49 0.20 0.59
      ISO 0.90 0.05 0.14 0.32 0.64
      SSC - 0.05 0.25 0.43 0.52
      MCI 0.60 0.05 0.11 0.21 0.75
      MNC 0.10 0.05 0.07 0.32 0.73
      NDC 0.30 0.10 0.06 0.23 0.79
      Our method 0.10 0.10 0.05 0.25 0.79

      类似地, 本文利用上述5张图像的检测数据构建P值箱线图, 并对BSDS500验证集中所有图像进行轮廓检测, 统计各算法模型在整个数据集的最优平均P值和单张图片的最优均值, 进一步验证本文算法模型的有效性与泛化性, 结果如图8图9所示.

      图  8  BSDS500部分图像在多组参数下检测结果的P值箱线图(G表示GD算法, I表示ISO算法, S表示SSC算法, C表示MCI算法, M表示MNC算法, N表示NDC算法, O表示本文算法)

      Figure 8.  P-value box plot of the detection results of some BSDS500 images under multiple sets of parameters (G represents the GD, I represents the ISO, S represents the SSC, C represents the MCI, M represents the MNC, N represents the NDC, and O represents the algorithm in this paper)

      图  9  各算法模型在BSDS500数据集的最优平均P值和单张图片的最优均值

      Figure 9.  The Pvalue of each algorithm model in the BSDS500 data set and the optimal average value of a single picture.

      根据图8P值箱线图可知, 本文算法模型相较于目前其他基于视觉机制的轮廓检测方法更加优异, 并具有较好的鲁棒性. 另外从图9数据中可得, 本文算法在BSDS500验证集下也有更好的检测效果. SSC算法在RuG40数据上的实验结果较差, 但是在BSDS500数据集上的整体表现较为突出, 其中可能原因是SSC算法针对彩色图像引入了颜色双拮抗机制, 而RuG40数据集仅包含二值图像. 因此, 本文算法模型在针对彩色复杂图像的轮廓检测能力上, 还有可深入研究的空间.

      综合上述实验可知, 本文所提出的基于主通路结构分级响应模型的轮廓检测方法, 在RuG40与BSDS500数据集上均表现较好, 检测效果具有一定优势的同时, 也存在可改进之处.

    • 本文研究基于生物视觉系统, 探讨了在不同组织结构间根据生理特性不同, 所提出不同的视觉信息传递和处理方法. 首先根据视网膜视杆细胞特性对灰度自然图像进行暗视野调节, 突出主体目标, 根据经典感受野的方向选择性和多尺度特性, 实现初级轮廓感知和全局轮廓信息的提取; 其次考虑LGN细胞对信息的稀疏编码加快响应速度, 并结合非经典感受野的侧抑制作用, 强化轮廓特征抑制背景纹理; 然后将轮廓信息进行生理神经元编码, 根据LGN与初级视皮层间的层级关联机制, 提出一种结合微动信息整合的神经元动态过程编码方法, 提高了轮廓信息的完整性; 最后通过视觉系统多路径加工的特点, 将初级轮廓响应经全局轮廓信息修正后与最终响应进行快速融合, 在提取弱轮廓信息的同时也抑制了背景纹理噪声. 目前深度学习模型对于高质量的样本具有较高的轮廓检测精度, 但模型并不具有可解释性, 并严重依赖于海量的训练样本. 而本文所采用的轮廓检测模型是一种基于生物视觉机制的机理模型, 具有效率高、成本低、无监督的优势, 在针对RuG40、BSDS500图像数据集的对比实验中验证了其有效性, 也为后续视觉信息在视通路中的传递编码方式提供了新想法.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回