Retinal Vessel Segmentation Based on Conditional Deep Convolutional Generative Adversarial Networks
-
摘要: 视网膜血管的分割帮助医生对眼底疾病进行诊断有着重要的意义.但现有方法对视网膜血管的分割存在着各种问题, 例如对血管分割不足, 抗噪声干扰能力弱, 对病灶敏感等.针对现有血管分割方法的缺陷, 本文提出使用条件深度卷积生成对抗网络的方法对视网膜血管进行分割.我们主要对生成器的网络结构进行了改进,在卷积层引入残差模块进行差值学习使得网络结构对输出的改变变得敏感, 从而更好地对生成器的权重进行调整.为了降低参数数目和计算, 在使用大卷积核之前使用小卷积核对输入特征图的通道数进行减半处理.通过使用U型网络的思想将卷积层的输出与反卷积层的输出进行连接从而避免低级信息共享.通过在DRIVE和STARE数据集上对本文的方法进行了验证, 其分割准确率分别为96.08 %、97.71 %, 灵敏性分别达到了82.74 %、85.34 %, $F$度量分别达到了82.08 %和85.02 %, 灵敏度比R2U-Net的灵敏度分别高了4.82 %, 2.4 %.Abstract: The segmentation of retinal vessels is of significance for doctors to diagnose the fundus diseases. However, existing methods have various problems in the segmentation of the retinal vessels, such as insufficient segmentation of retinal vessels, weak anti-noise interference ability, and sensitivity to lesions, etc. Aiming to the shortcomings of existed methods, this paper proposes the use of conditional deep convolutional generative adversarial networks to segment the retinal vessels. We mainly improve the network structure of the generator. The introduction of the residual module at the convolutional layer for residual learning makes the network structure sensitive to changes in the output, as to better adjust the weight of the generator. In order to reduce the number of parameters and calculations, using a small convolution kernel to halve the number of channels in the input signature before using a large convolution kernel. By used the idea of a U-net to connect the output of the convolutional layer with the output of the deconvolution layer to avoid low-level information sharing. By verifying the method on the DRIVE and STARE datasets, the segmentation accuracy rate is 96.08 % and 97.71 %, the sensitivity reaches 82.74 % and 85.34 %, respectively, and the $F$-measure reaches 82.08 % and 85.02 %, respectively. The sensitivity is 4.82 % and 2.4 % higher than that of R2U-Net.
-
Key words:
- Generative adversarial network (GAN) /
- residual networks /
- retinal vessel segmentation /
- conditional models /
- convolutional neural networks (CNNs)
-
图像在处理、传输和存储过程中会产生不同类型、不同程度的降质, 导致最终的成像出现一定的失真, 严重妨碍了图像的理解和分析[1].因此设计一种量化失真程度和等级的无参考图像质量评价方法, 是图像评价领域极其重要且亟待解决的问题[2].
现阶段无参考图像质量评价方法大致可分为特定失真和非特定失真两类[3].无参考图像质量评价的研究起始于特定失真图像的质量评价, 如最常见的图像模糊和噪声.但由于特定失真图像需要提前知道图像的失真类型, 在应用中受到限制, 因而非特定失真的研究更受关注.这类方法通常是从图像不同的视觉感知区域(如边界、纹理等)中提取不随图像内容变化的统计信息[4]. Moorthy等[5]首次利用小波变换和广义高斯分布(Generalized Gaussian distribution, GGD)来提取图像的统计特征, 并通过支持向量机(Support vector machine, SVM)建立特征和图像质量之间的映射模型. Mittal等[6]将空域变换应用到自然场景统计中, 提出了盲参考图像质量评价(Blind reference image spatial quality evaluator, BRISQUE)方法; 随后又引入非对称广义高斯分布(Asymmetrical generalized Gaussian distribution, AGGD), 提出了自然图像质量评价(Natural image quality evaluator, NIQE)方法[7].之后相关的评价方法都在此基础上展开, 如文献[8]在NIQE的基础上引入结构统计, 提出了一种通用型盲参考图像质量评价(Integrated local-NIQE, IL-NIQE)方法.该方法采用韦伯定律提取图像的结构信息, 使图像评价的性能进一步提升, 同时也证明了结构信息在图像评价中的重要性.由于图像的结构信息能有效地反映图像质量特征, 随之出现了各种提取边缘结构的方法, 如小波、梯度和轮廓波等.其中, 局部二值模式(Local binary pattern, LBP)利用邻近像素间的差异性就能简单而高效地提取图像的结构信息, 使得时下众多的评价方法都在此基础上展开(如文献[9-10]).随着对图像质量评价的深入研究, 人们开始把提取图像的结构信息的相关方法引入到对多失真混合的图像质量评价中, 例如文献[11-12]对模糊和噪声混合失真图像的质量评价; 文献[13]在自由能的基础上结合像素结构信息等提出多种RR (Reduced reference)和FR (Full reference)方法实现混合失真图像评价; 文献[14]在梯度图像的基础上利用LBP变换, 提出了一种梯度加权局部二值模式(Gradient-weighted histogram of local binary pattern calculated on the gradient map, GWH-GLBP)的混合图像质量评价方法.
综上所述, LBP变换因其高效而准确的提取特性而被广泛应用于图像评价中.同时, 由于视觉神经元对主导方向上的高阶图像结构非常敏感, 而韦伯定律的差异激励能更准确地提取结构信息[15].对此, 本文根据韦伯定律的相对亮度求得差异激励图, 并依据各向异性得到差异激励图的梯度映射图; 然后利用量化差异激励图得到差异量化图, 并分别与差异激励图和梯度映射图进行加权融合, 在差异激励的基础上结合定向梯度滤波器, 提取能分别表征图像结构信息(如边缘)的一阶结构特征和图像细节信息(如纹理)的二阶结构特征; 利用求得的特征构建图像质量评价模型.研究表明, 该方法揭示了不同单一失真与混合失真之间的特性, 同时又能对单一及混合失真图像进行有效的质量评价, 是一种切实可行的评价方法.
1. 基于差异激励的图像评价方法
人眼是图像的最终接受者, 由于其机制过于复杂, 如何恰当利用人眼视觉特性, 是得到性能优良的图像质量评价方法的关键[16].人眼视觉有一个重要的特点, 即对所观察物体的绝对亮度不太敏感, 而相对亮度比较敏感, 这种现象符合韦伯定律.研究发现, 基于韦伯定律的差异激励特征能够很好地对图像进行表达.对此将差异激励特征与其他特征相结合建立图像质量评价方法, 以期能够获得较好的评价性能, 即与人眼的主观感知具有较好的一致性.
1.1 韦伯定律和差异激励
为了更好地描述人眼对图像的感知, 本文利用韦伯定律对图像特征进行描述, 并对差异激励进行改进.首先计算当前像素与其邻域像素的差值并求和, 即:
$$\begin{equation} \Delta x=\sum\limits_{i=0}^{P-1}(x_{i}-x_{c})\\ \end{equation} $$ (1) 式中, $P=8, x_{c}$为当前像素点的灰度值, $x_{i}$为相邻像素点的灰度值.再计算邻域差值的和与中心像素的比值, 但在实际实验中分母(中心像素)有为0的可能, 对此将像素值的动态范围替换中心像素, 即最大与最小像素间的差值.则差异激励的计算式为:
$$\begin{equation} \xi (x_{c})={\rm arctan}\left [ \alpha\cdot \frac{\sum\limits_{i=0}^{P-1}(x_{i}-x_{c})}{{\rm max}(I)-{\rm min}(I)} \right ]\\ \end{equation} $$ (2) 式中, 引入$ \alpha$为防止反正切函数的变化过快, 同时也为了模拟人眼的非线性特性, 参考文献[17]取$ \alpha=5$.由于像素点的差异激励会出现负值, 为了保持图像的灰度范围, 将其归一化到[0, 255], 则差异激励图表示为:
$$ \begin{equation} DI(x)=255\times \frac{\xi (x)-{\rm min}(\xi (x))}{{\rm max}(\xi (x))-{\rm min}(\xi (x))}\\ \end{equation} $$ (3) 从LIVE[18]图像数据库中选择"Buildings"图像与其对应不同失真程度的图像(如图 1(a)~1(d))为例, 图中DMOS (Differential mean opinion score)值表示在主观评价方法下图像的失真情况, 值越大则图像质量越差.分别对图 1(a)~1(d)进行差异激励, 得到对应的差异激励图如图 1(a1)~1(d1).分析可知, 相对灰度图像, 差异激励图能直观、丰富地表达图像的结构信息, 且随着失真程度的不断增加, 其结构信息依次减少, 表明差异激励图可以有效地表示失真图像的质量变化.
1.2 各向异性和梯度映射
根据图像的各向异性[19], 图像失真后的结构在出现变化的同时其方向也会随着改变, 而人眼视觉感知中对其主导方向的感知最为敏感.根据文献[20]中可知, 主导方向上的二阶纹理能检测到细小的图像纹理, 为了更充分利用图像的结构信息, 本文在差异激励图(如图 1(a1)~1(d1))的基础上求取梯度映射图(如图 1(a2)~1(d2), 以此来反映图像失真后主导方向上的梯度变化. 图 2为本文采用具有4个不同方向的梯度滤波器$g_{k}(i, j)$来构造梯度算子.
在像素点$(x, y)$处, 4个不同定向的图像梯度值$grad_{k}(x, y)$为:
$$ \begin{align} &grad_{k}(i, j)= \nonumber\\& \quad \frac{1}{16}\sum\limits_{i=1}^{5}\sum\limits_{j=1}^{5}I(x-3 + i, y-3 + i)\times g_{k}(i, j) \end{align} $$ (4) 选择梯度最大值作为像素点$(x, y)$处的梯度值:
$$ \begin{equation} g(x, y)=\underset{k=1, 2, 3, 4}{\rm {max}}\left \{ grad_{k}(x, y) \right \}\\ \end{equation} $$ (5) 对像素点逐点计算, 得到整幅图像的梯度映射图(如图 1(a2)~1(d2)所示).观察图 1(a2)~1(d2)可知, 梯度映射图表现出比差异激励图更丰富的纹理信息, 且随着失真程度的不断增加其结构信息依次减少, 故梯度映射图能有效地反映不同失真情况下图像质量的变化, 即反映图像质量的优劣.
1.3 差异量化与概率统计
为了有效地利用差异激励图对图像进行特征描述, 本文结合局部二值模式(LBP)[14]并在此基础上加以改进, 实现差异量化.其步骤为:计算当前像素与其邻域像素的差值, 并对其进行量化再求和.在求和前作如下定义:当差值大于0则记为1, 当小于0时则记为$-1$, 相等则为0;然后将求和的值作为当前像素点的值, 该值最大为8, 最小时为$-8$. 图 3给出由差异激励图获得的差异量化图, 其量化值计算为:
$$ \begin{equation} LDP(x_{c})=\sum\limits_{i=1}^{P}{\rm sign}(x_{i}-x_{c})\\ \end{equation} $$ (6) 其中,
$$ \begin{equation*} {\rm sign}(x_{i}-x_{c})=\left\{\begin{matrix} 1, & x_{i}-x_{c}> 0\\ 0, & x_{i}-x_{c}=0\\ -1, & x_{i}-x_{c}< 0 \end{matrix}\right. \end{equation*} $$ 式中, $ x_{c} $为当前像素点的灰度值, $ x_{c} $为相邻像素点的灰度值.
由于自然场景图像自身符合一定的分布规律, 其差异量化图也将遵循一定的分布规律, 即具有不随内容变化的统计性质.然而图像降质、失真则会使分布规律产生一定的偏差[4], 对此, 本文对差异量化图进行概率统计试验.测试图像选自LIVE图像库、MLIVE[18]图像库和MDID2013[21]图像库中DMOS值相近的8种不同类型失真的同一幅图像, 其失真类型包括:快速衰落(Fast fading, FF)、高斯模糊(Gaussian blur, GB)、JP2K (JPEG2000)压缩、JPEG压缩、白噪声(White noise, WN)、模糊+ JPEG压缩(BLUR + JPEG)、模糊+白噪声(BLUR + WN)和模糊+ JPEG压缩+白噪声(BLUR + JPEG + WN)等8种.图像经差异量化, 并以统计直方图的形式展现如图 4(a)~4(i)所示, 其中横坐标为$LDP(x_{c})$其取值范围$[-8, 8], $纵坐标为在图像中$ LDP(x_{c})$出现的概率($\%$).
与原始图 4(a)对比, JPEG压缩、JPEG2 000压缩、GB、FF、BLUR + JPEG这5种失真均在中心点(0点)处量化值概率高于原始图像的量化值概率, 而在两边低于原始图像, 其中以JPEG压缩和BLUR + JPEG失真最为明显; WN、BLUR + WN和BLUR + JPEG + WN等失真却恰好相反.由于JPEG压缩、JPEG2 000压缩、GB、FF、BLUR + JPEG这5类失真都会使图像的高频信息减少, 像素间的差异性减小; 而WN、BLUR + WN和BLUR + JPEG + WN等失真则会使图像的高频信息增加, 像素间差异性增强, 其主要原因是白噪加入增加了不必要的高频信息, 同时还会导致奇数值的概率低于偶数值的概率.综上所述, 失真图像的概率统计特性都发生了不同程度的变化, 表明失真会影响其分布规律, 通过差异量化揭示了单一失真与混合失真之间的概率统计特性, 为失真类型识别提供了依据.
1.4 特征加权融合
差异激励体现了相邻像素间的相关性, 但无法很好地区分区域间的强弱关系.为了有效地表征图像失真的变化, 本文将差异量化图与差异激励图进行加权融合, 得到图像的一阶结构特征; 同时, 将差异量化图与梯度映射图进行加权融合, 得到图像的二阶结构特征.具体步骤为:
1) 求差异激励图中所有点的像素值之和, 记为$G_{all}$:
$$ \begin{equation} G_{all}=\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{M}DI(i, j)\\ \end{equation} $$ (7) 2) 在差异量化图中将差异量化值处的像素值设为1, 其余位置均设为0, 得到对应的二值图$\omega (k)$:
$$ \begin{equation} \omega (k)=\begin{cases} 1, &LDP(i, j)=k \\ 0, & \mbox{否则} \end{cases} \end{equation} $$ (8) 3) 将该二值图$\omega (k)$与差异激励图进行加权融合, 即在差异激励图中保留对应量化值$k$的像素值, 而其余位置的像素值均为0, 得到对应的差异激励图, 并求融合后的差异激励图中所有点的像素值之和, 记为$G(k)$:
$$ \begin{equation} G(k)=\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{M}DI(i, j)\cdot \omega (k)\\ \end{equation} $$ (9) 4) 将$G(k)$与$G_{all}$相除, 即为整个差异激励图中的比例$h(k)$, 作为该差异量化值的统计特征:
$$ \begin{equation} h(k)=\frac{G(k)}{G_{all}}=\frac{\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{M}g(i, j)\cdot \omega (LDP(i, j), k)}{\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{M}g(i, j)}\\ \end{equation} $$ (10) 式中, $k$是差异量化值, 其取值范围是$[-8, 8]$.
根据上述步骤, 可求得差异量化值所对应的差异激励图的统计特征.由于差异量化值是$[-8, 8]$之间的整数, 即可得17维的一阶特征.由于灰度化后的图像的亮度是根据图像像素间的明暗程度来体现的, 而明暗程度又可表征为图像的边缘结构信息, 因此本文把该特征定义为亮度特征; 在上述步骤中, 将差异激励图替换成梯度映射图, 再将差异量化图与梯度映射图融合, 求得17维的二阶结构特征.为了反映视觉多通道特性, 本文采用下采样[22]的方式提取上述3个尺度下的特征, 即共计102个特征值; 再将支持向量回归(Support vector regression, SVR)[23]的思想引用到图像质量的评价中, 并选用基于支持向量机(Support vector machine, SVM)的综合性软件库LIBSVM (Library for support vector machines)[24]用于训练、建立质量预测模型, 得到预测图像的质量评估分数.
综上所述, 本文所提的基于差异激励的图像质量评价算法流程框图如图 5所示.
2. 实验结果与分析
2.1 算法性能评价
实验主要在LIVE[18]图像库、CSIQ[25]图像库、TID2013[26]图像库、MLIVE[18]图像库、MDID2013 (Multiply distorted image database2013)[21]图像库和MDID2016[27]图像库中展开, 6个图像库的具体信息如表 1所示.
表 1 本文选用的6个图像库描述Table 1 The descriptions of six image databases selected in this paper图像库 参考图像 失真类型 图像个数 LIVE 29 JPEG2000压缩 953 JPEG压缩 高斯白噪声 高斯模糊 快衰弱 CSIQ 30 加性高斯噪声 900 高斯模糊 对比度改变 粉红噪声 MLIVE 15 JPEG压缩 450 JPEG2000压缩 模糊+压缩 模糊+噪声 MDID2013 12 模糊+压缩+噪声 324 MDID2016 20 噪声+模糊+对比度+压缩+ JP2K压缩 1 600 TID2013 25 #1加性高斯噪声 #13 JPEG2000传输误差 3 000 #2彩色分量中的差分加性噪声 #14无偏心率类型噪声 #3空域相关噪声 #15不同强度局部块失真 #4掩膜噪声 #16均值平移 #5高频噪声 #17对比度改变 #6脉冲噪声 #18色彩饱和度改变 #7量化噪声 #19乘性高斯噪声 #8高斯模糊 #20舒适噪声 #9图像去噪 #21噪声图像的有损压缩 #10 JPEG压缩 #22图像的颜色量化及波动 #11 JPEG2000压缩 #23图像色差 #12 JPEG传输误差 #24稀疏采样及重构 1) 评价性能指标
本文选用反映客观评价模型预测准确性线性相关系数(Correlation coefficient, CC)、反映客观评价模型预测单调性的Spearman等级次序相关系数(Spearman rank-order correlation coefficient, SROCC)以及反映预测准确程度的均方根误差(Root mean square error, RMSE)作为对所提算法性能进行评判性能指标.其中, 在评价中CC与SROCC的值越接近1, 而RMSE的值越小说明算法预测越准确.为了保证实验的公平性, 随机选择每种类型的$80\, \%$作为训练对象, 20 $\%$作为测试对象.同时, 为了消除算法结果的偶然性, 本文对算法训练和测试分别进行1 000次重复计算, 并将计算结果按照从小到大顺序进行排序, 取所有数据的中值作为最终的评价指标.
2) 对比算法的选择
为了进一步验证算法的性能, 本文选择具有代表性的单一失真无参考评价方法: DIIVINE (Distortion identification-based image verity and integrity evaluation)[5], BRISQUE[6], NIQE[7]、IL-NIQE[8]、NR-GLBP (No-reference generalized local binary pattern)[9]和NRSL (No-reference quality assessment using statistical structural and luminance features)[10]等; 具有代表性的混合失真无参考评价方法: SISBLM (Six-step blind metric)[11], HOSA (High order statistics aggregation)[12], NFERM (No-reference free energy based robust metric)[13]和GWH-GLBP[14]等作为对比算法.
3) 算法性能测试
针对单一失真的算法性能测试中, 选用CC、SROCC和RMSE三个评价指标, 选择DIIVINE[5]、BRISQUE[6]、NIQE[7]、IL-NIQE[8]、NR-GLBP[9]和NRSL[10]等作为对比算法, 算法在LIVE图像库和CSIQ图像库的评价结果如表 2所示.分析可知, 在LIVE图像库中本文算法效果最佳; 而在CSIQ图像库中, 本文算法虽略逊于NRSL算法, 究其原因, 由于CSIQ图像库中包含粉红噪声和对比度改变从而导致本文算法的评价效果受到一定的影响.但总体体现出所提算法的客观评价结果与主观感知具有较好的一致性.
表 2 LIVE和CSIQ数据库中单一型算法质量评价性能对比Table 2 Comparison of performance evaluation of single algorithm in LIVE and CSIQ databasesLIVE (953 images) CSIQ (900 images) 算法 CC SROCC RMSE CC SROCC RMSE DIIVINE[5] 0.893 0.885 11.168 0.797 0.810 0.275 BRISQUE[6] 0.944 0.947 7.795 0.728 0.740 0.325 NIQE[7] 0.909 0.908 11.376 0.756 0.739 0.340 IL-NIQE[8] 0.906 0.903 10.824 0.732 0.718 0.354 NR-GLBP[9] 0.942 0.935 9.075 0.847 0.801 0.174 NRSL[10] 0.957 0.953 8.018 0.859 0.851 0.109 本文算法 0.963 0.961 7.052 0.858 0.839 0.117 由于在TID2013图像库中包含单一失真、混合失真和颜色失真, 涉及的失真范围也比较广泛.为了更直观地比较本文所提算法与对比算法的性能, 选择以BRISQUE[6]、NR-GLBP[9]和NRSL[10]为单一失真无参考评价方法和以NFERM[13]和GWH-GLBP[14]等为混合失真评价方法作为对比算法, 选用SROCC为评价指标进行测试.由表 3分析可知, 所提算法在24种失真类型中有16种失真测试性能都位列第1, 其余的为第2有2种、第3有4种、第4有2种, 证明了本文所提算法方法的有效性.
表 3 TID2013数据库中算法质量评价性能指标SROCC对比(3 000幅图)Table 3 Comparison of quality evaluation performance indexes of algorithm in TID2013 database (3 000 images)算法 #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20 #21 #22 #23 #24 All BRISQUE[6] 0.706 0.523 0.776 0.295 0.836 0.802 0.682 0.861 0.500 0.790 0.779 0.254 0.723 0.213 0.197 0.217 0.079 0.113 0.674 0.198 0.627 0.849 0.724 0.811 0.567 NR-GLBP[9] 0.466 0.591 0.759 0.491 0.875 0.693 0.833 0.878 0.721 0.844 0.867 0.440 0.594 0.226 0.204 0.105 0.123 0.023 0.580 0.447 0.507 0.762 0.748 0.830 0.679 NRSL[10] 0.813 0.457 0.867 0.393 0.902 0.787 0.700 0.886 0.795 0.818 0.891 0.345 0.805 0.117 0.323 0.136 0.194 0.110 0.753 0.434 0.751 0.866 0.694 0.887 0.661 NFERM[13] 0.851 0.520 0.846 0.521 0.894 0.857 0.785 0.888 0.741 0.797 0.920 0.381 0.718 0.176 0.081 0.238 0.056 0.029 0.762 0.206 0.401 0.848 0.684 0.878 0.652 GWH-GLBP[14] 0.736 0.358 0.814 0.412 0.874 0.795 0.757 0.838 0.811 0.890 0.901 0.494 0.656 0.326 0.344 0.341 0.252 0.420 0.601 0.624 0.664 0.741 0.919 0.898 0.655 本文算法 0.768 0.454 0.861 0.537 0.885 0.814 0.752 0.908 0.859 0.853 0.940 0.544 0.754 0.426 0.480 0.275 0.442 0.507 0.706 0.680 0.823 0.839 0.948 0.903 0.691 表 4选SISBLM[10]、HOSA[12]、NFERM[13]和GWH-GLBP[14]等作为对比算法, 选用CC、SROCC和RMSE三个评价指标, 算法测试在MLIVE[18]图像库、MDID2013[21]图像库和MDID2016[27]图像库中展开.分析可知, 本文所提的算法的单调性和精度最优, 仅在MDID2013图像库中SROCC值略次于GWH-GLBP算法, 就整体而言, 所提算法能对不同种类混合失真的图像进行有效的评价, 且通用性强.
表 4 MLIVE、MDID2013和MDID2016数据库中混合型算法质量评价性能指标对比Table 4 Comparison of quality evaluation performance indicators of hybrid algorithm in MLIVE, MDID2013 and MDID2016 databases算法 MLIVE MDID2013 MDID2016 (450 images) (324 images) (1 600 images) CC SROCC RMSE CC SROCC RMSE CC SROCC RMSE SISBLM[10] 0.925 0.907 7.198 0.910 0.905 0.019 0.633 0.655 1.708 HOSA[12] 0.926 0.902 6.974 0.892 0.872 0.021 0.566 0.551 1.871 NFERM[13] 0.919 0.899 7.458 0.871 0.855 0.025 0.496 0.451 1.915 GWH-GLBP[14] 0.945 0.939 6.061 0.913 0.907 0.019 0.891 0.886 1.004 本文算法 0.957 0.942 5.736 0.916 0.904 0.019 0.903 0.892 0.947 2.2 鲁棒性分析
本文测试时随机选择了80 $\%$作为训练对象, 20 $\%$作为测试对象, 但由于不同的比例会影响最终的评价效果, 为了分析其影响程度, 在文献[26]的基础上, 本文把LIVE和MLIVE库中的图像分别按照70 $\%$与30 $\%$、60 $\%$与40 $\%$、50 $\%$与50 $\%$、40 $\%$与60 $\%$、30 $\%$与70 $\%$、20 $\%$与80 $\%$的比例随机分为训练集和测试集, 进行了6组实验, 其测试结果如表 5所示.对照表 2、表 4与表 5的结果可知, 其评价分值随着训练比例的减少而减少, 呈现出一种下降的趋势, 即便选取20 $\%$用于训练, LIVE数据库的整体测试效果的CC及SROCC值都能在0.93以上, 而在MLIVE数据库中CC及SROCC值也能达到0.88以上, 表明即使选取较少数据进行训练所建立的模型同样具有较好的评价效果, 说明本文算法具有很好的鲁棒性.
表 5 测试不同训练与测试比例的SROCC和CC的中值(1 000次)Table 5 Median values of SROCC and CC for different training and test ratios (1 000 times)LIVE MLIVE 测试集和训练集比例 指标 JP2K JPEG GBLUR FF WN ALL GB + JPEG GB + WN ALL 70 $\%$与30 $\%$ SROCC 0.9496 0.9592 0.9419 0.8848 0.9752 0.9604 0.9372 0.9438 0.9366 CC 0.9613 0.9768 0.9504 0.8958 0.9804 0.9624 0.9598 0.9535 0.9506 60 $\%$与40 $\%$ SROCC 0.9479 0.9570 0.9397 0.8732 0.9747 0.9578 0.9266 0.9321 0.9278 CC 0.9594 0.9750 0.9468 0.8875 0.9796 0.9610 0.9483 0.9401 0.9414 50 $\%$与50 $\%$ SROCC 0.9466 0.9546 0.9363 0.8674 0.9743 0.9559 0.9204 0.9240 0.9223 CC 0.9587 0.9738 0.9413 0.8839 0.9791 0.9595 0.9437 0.9357 0.9364 40 $\%$与60 $\%$ SROCC 0.9409 0.9521 0.9320 0.8606 0.9706 0.9522 0.9063 0.9053 0.9046 CC 0.9520 0.9691 0.9369 0.8744 0.9789 0.9568 0.9243 0.9167 0.9164 30 $\%$与70 $\%$ SROCC 0.9351 0.9465 0.9253 0.8514 0.9645 0.9463 0.9040 0.8984 0.8976 CC 0.9457 0.9651 0.9287 0.8611 0.9781 0.9507 0.9206 0.9101 0.9112 20 $\%$与80 $\%$ SROCC 0.9253 0.9345 0.9138 0.8329 0.9612 0.9345 0.8864 0.8785 0.8811 CC 0.9351 0.9540 0.9150 0.8468 0.9748 0.9387 0.9079 0.8862 0.8918 2.3 迁移性对比试验
在可迁移性实验中, 本文算法在LIVE数据库中建立训练模型, 然后在CSIQ数据库中进行验证(注:该数据库仅包含与LIVE对应的JP2K、JPEG、WN和GBLUR等4种类型的失真).由于LIVE数据库的主观分数在0 $\sim$ 100之间, CSIQ数据库的主观分数在0 $\sim$ 1之间, 为了保证评价分数的一致性, 将CSIQ的主观分数扩大100倍.选用4种质量评价指标CC、SROCC、KROCC与RMSE来测试本文算法的性能, 其中KROCC是反映客观评价模型预测相关性的肯德尔秩次相关系数(Kendallrank-order correlation coefficient), 数值越接近1说明与主观一致性越强, 评价效果越好.
从表 6可以看出, 所提算法在CSIQ数据库中的综合性能虽各有千秋, 但就整体而言, 依然表现出良好的评价性能, 因此证明本算法具有较好的可迁移性和通用性.
表 6 CSIQ数据库中不同失真类型的性能评价Table 6 Performance evaluation of different distortion types in CSIQ database类型 CC SROCC RMSE KROCC JP2K 0.9046 0.8741 7.6044 0.6966 JPEG 0.9360 0.9194 6.5040 0.8151 GBLUR 0.8858 0.9016 7.8402 0.7320 WN 0.9377 0.9238 6.3493 0.7591 ALL 0.9167 0.8953 7.2687 0.7378 2.4 图像失真类型识别
为了测试本文算法对图像失真类型识别的性能, 选用LIBSVM[18]建立图像失真类型识别模型, 并采用与第3.2节图像质量评价相似的方法在LIVE数据库进行1 000次迭代测试, 选取1 000次测试的分类准确率的均值作为识别结果.从表 7的结果可知, 本文算法具有较高的准确率, 特别是JPEG和WN这两类失真, 识别率高达到100 $\%$, 而JP2K和FF具有部分相似的失真效应, 会出现相互误判的情况导致JP2K和FF的识别率相对较低一些, 这也是将来需要进一步研究的地方.
表 7 LIVE数据库中失真类型的识别准确率(1 000次)Table 7 Recognition accuracy of distortion type in LIVE database (1 000 times)类型 JP2K JPEG GBLUR FF WN ALL 准确率 87.94 $\%$ 100 $\%$ 97.82 $\%$ 90.26 $\%$ 100 $\%$ 95.39 $\%$ 2.5 算法复杂度
在本文方法与无参考评价方法的运算效率比较中, 我们主要从特征提取的效率进行比较.运算平台为Intel-core i3-2 310M CPU, 2.1 GHz, 4 GB RAM, Windows 7 SP1 64-bit, 运行环境为MATLAB 2013a软件.将评价方法分别提取多幅图像(512 $\sim$ 768)的特征, 求取平均运行时间.从表 8可知, 本文方法的运算效率不逊色于当前主流的无参考评价算法, 具有较高的效率.
表 8 图像质量评价算法运行时间Table 8 Running time of image quality evaluation algorithmIQA model DIIVINE BRISQUE NIQA SISBLM HOSA NFERM GWH-GLBP 本文算法 Time (s) 0.18 15.8 2.72 3.73 0.35 55.1 0.27 0.33 3. 结论
本文提出了一种基于差异激励的无参考混合图像质量评价算法, 在韦伯定律的基础上求得差异激励图, 并依据各向异性得到差异激励的梯度映射图, 然后量化差异激励得到差异量化图, 并分别与差异激励图与梯度映射图进行加权融合求得特征.最后将求得的特征通过支持向量机构建评价预测模型.在LIVE、MLIVE、MDID2013和MDID2016等多个数据库中测试表明, 提出的算法能够对单一失真和混合失真图像都能获得了较好的评价指标, 取得了与主观评价较好的一致性, 符合HVS (Human visual system)特性, 相对当前无参考图像质量评价的算法具有较好的评价效果, 算法性能稳定, 复杂度较低, 在图像质量评价中具有重要参考的意义.为下一步研究彩色图像质量评价模型, 提高彩色图像质量评价能力提供依据.
-
表 1 模型改进前后分割的结果
Table 1 The segmentation results before and after model improvement
数据集 方法 $F$度量 准确率 DRIVE/STARE U-net 0.8142/0.8373 0.9531/0.9690 GAN+U-net 0.8150/0.8398 0.9583/0.9710 U-net+Residual 0.8149/0.8388 0.9553/0.9700 GAN+U-net+Residual (本文结构) 0.8208/0.8506 0.9608/0.9771 表 2 使用瓶颈层前后分割的结果
Table 2 The result of segmentation before and after using the bottleneck layer
数据集 方法 参数 计算量$(GFLOPS)$ $F$度量 准确率 DRIVE/STARE No Bottleneck 19.8 M 183.8 0.8210/0.8504 0.9612/0.9772 Bottleneck 5.2 M 48.5 0.8208/0.8502 0.9608/0.9771 表 3 DRIVE数据库视网膜血管分割结果
Table 3 Segmentation performance of retinal vessel on the DRIVE database
数据集 方法 年份 $F$度量 灵敏性 特效性 准确率 DRIVE Chen[13] 2014 – 0.7252 0.9798 0.9474 N$^4$-Fields[30] 2014 0.7970 0.8437 0.9743 0.9626 Azzopardi[5] 2015 – 0.7655 0.9704 0.9442 Roychowdhury[12] 2016 – 0.7250 0.9830 0.9520 Liskowsk[14] 2016 – 0.7763 0.9768 0.9495 Qiaoliang Li[12] 2016 – 0.7569 0.9816 0.9527 DRIU[27] 2016 0.6701 0.9696 0.9115 0.9165 HED[28] 2017 0.6400 0.9563 0.9007 0.9054 U-Net[33] 2018 0.8142 0.7537 0.9820 0.9531 Residual U-Net[33] 2018 0.8149 0.7726 0.9820 0.9553 Recurrent U-Net[33] 2018 0.8155 0.7751 0.9816 0.9556 R2U-Net[33] 2018 0.8171 0.7792 0.9813 0.9556 本文方法 2018 0.8208 0.8274 0.9775 0.9608 表 4 STARE数据库视网膜血管分割结果
Table 4 Segmentation performance of retinal vessel on the STARE database
数据集 方法 年份 $F$度量 灵敏性 特效性 准确率 STARE Marin[31] 2011 – 0.6940 0.9770 0.9520 Fraz[32] 2012 – 0.7548 0.9763 0.9534 Liskowsk[14] 2016 – 0.7867 0.9754 0.9566 Roychowdhury[12] 2016 – 0.7720 0.9730 0.9510 Qiaoliang Li[12] 2016 – 0.7726 0.9844 0.9628 DRIU[27] 2016 0.7385 0.6066 0.9956 0.9499 HED[28] 2017 0.6990 0.5555 0.9955 0.9378 U-Net[33] 2018 0.8373 0.8270 0.9842 0.9690 Residual U-Net[33] 2018 0.8388 0.8203 0.9856 0.9700 Recurrent U-Net[33] 2018 0.8396 0.8108 0.9871 0.9706 R2U-Net[33] 2018 0.8475 0.8298 0.9862 0.9712 本文方法 2018 0.8502 0.8538 0.9878 0.9771 -
[1] Zhang B, Zhang L, Zhang L, Karray F. Retinal vessel extraction by matched filter with first-order derivative of Gaussian. Computers in Biology and Medicine, 2010, 40(4): 438-445 doi: 10.1016/j.compbiomed.2010.02.008 [2] Jiang X Y, Mojon D. Adaptive local thresholding by verification-based multithreshold probing with application to vessel detection in retinal images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(1): 131-137 doi: 10.1109/TPAMI.2003.1159954 [3] Zana F, Klein J C. Segmentation of vessel-like patterns using mathematical morphology and curvature evaluation. IEEE Transactions on Image Processing, 2001, 10(7): 1010-1019 doi: 10.1109/83.931095 [4] Mehrotra A, Tripathi S, Singh K K, Khandelwal P. Blood vessel extraction for retinal images using morphological operator and KCN clustering. In: Proceedings of the 2014 IEEE International Advance Computing Conference. Gurgaon, India: IEEE, 2014. 1142-1146 [5] Azzopardi G, Strisciuglio N, Vento M, Petkov N. Trainable COSFIRE filters for vessel delineation with application to retinal images. Medical Image Analysis, 2015, 19(1): 46-57 doi: 10.1016/j.media.2014.08.002 [6] Wang Y F, Ji G R, Lin P, Trucco E. Retinal vessel segmentation using multiwavelet kernels and multiscale hierarchical decomposition. Pattern Recognition, 2013, 46(8): 2117-2133 doi: 10.1016/j.patcog.2012.12.014 [7] Guo Z L, Lin P, Ji G R, Wang Y F. Retinal vessel segmentation using a finite element based binary level set method. Inverse Problems and Imaging, 2014, 8(2): 459-473 doi: 10.3934/ipi.2014.8.459 [8] Tolias Y A, Panas S M. A fuzzy vessel tracking algorithm for retinal images based on fuzzy clustering. IEEE Transactions on Medical Imaging, 1998, 17(2): 263-273 doi: 10.1109/42.700738 [9] 王晓红, 赵于前, 廖苗, 邹北骥.基于多尺度2D Gabor小波的视网膜血管自动分割.自动化学报, 2015, 41(5): 970-980 doi: 10.16383/j.aas.2015.c140185Wang Xiao-Hong, Zhao Yu-Qian, Liao Miao, Zou Bei-Ji. Automatic segmentation for retinal vessel based on multi-scale 2D Gabor wavelet. Acta Automatica Sinica, 2015, 41(5): 970-980 doi: 10.16383/j.aas.2015.c140185 [10] 梁礼明, 黄朝林, 石霏, 吴健, 江弘九, 陈新建.融合形状先验的水平集眼底图像血管分割.计算机学报, 2018, 41(7): 1678-1692 https://www.cnki.com.cn/Article/CJFDTOTAL-JSJX201807013.htmLiang Li-Ming, Huang Chao-Lin, Shi Fei, Wu Jian, Jiang Hong-Jiu, Chen Xin-Jian. Retinal vessel segmentation using level set combined with shape priori. Chinese Journal of Computers, 2018, 41(7): 1678-1692 https://www.cnki.com.cn/Article/CJFDTOTAL-JSJX201807013.htm [11] Roychowdhury S, Koozekanani D D, Parhi K K. Blood vessel segmentation of fundus images by major vessel extraction and subimage classification. IEEE Journal of Biomedical and Health Informatics, 2015, 19(3): 1118-1128 [12] Li Q L, Feng B W, Xie L P, Liang P, Zhang H S, Wang T F. A cross-modality learning approach for vessel segmentation in retinal images. IEEE Transactions on Medical Imaging, 2016, 35(1): 109-118 doi: 10.1109/TMI.2015.2457891 [13] Cheng E, Du L, Wu Y, Zhu Y J, Megalooikonomou V, Ling H B. Discriminative vessel segmentation in retinal images by fusing context-aware hybrid features. Machine Vision and Applications, 2014, 25(7): 1779-1792 doi: 10.1007/s00138-014-0638-x [14] Liskowski P, Krawiec K. Segmenting retinal blood vessels with deep neural networks. IEEE Transactions on Medical Imaging, 2016, 35(11): 2369-2380 doi: 10.1109/TMI.2016.2546227 [15] Kingma D P, Welling M. Auto-encoding variational Bayes. arXiv: 1312.6114, 2014 [16] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, WardeFarley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014. 2672-2680 [17] 王坤峰, 苟超, 段艳杰, 林懿伦, 郑心湖, 王飞跃.生成式对抗网络GAN的研究进展与展望.自动化学报, 2017, 43(3): 321-332 doi: 10.16383/j.aas.2017.y000003Wang Kun-Feng, Gou Chao, Duan Yan-Jie, Lin Yi-Lun, Zheng Xin-Hu, Wang Fei-Yue. Generative adversarial networks: the state of the art and beyond. Acta Automatica Sinica, 2017, 43(3): 321-332 doi: 10.16383/j.aas.2017.y000003 [18] Hu Y P, Gibson E, Lee L L, Xie W D, Barratt D C, Vercauteren T, et al. Freehand ultrasound image simulation with spatially-conditioned generative adversarial networks. In: Proceedings of Molecular Imaging, Reconstruction and Analysis of Moving Body Organs, and Stroke Imaging and Treatment. Québec, Canada: Springer, 2017. 105-115 [19] Kohl S, Bonekamp D, Schlemmer H P, Yaqubi K, Hohenfellner M, Hadaschik B, et al. Adversarial networks for the detection of aggressive prostate cancer. arXiv: 1702.08014, 2017. [20] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv: 1511.06434, 2015. [21] Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation. arXiv preprint arXiv: 1505.04597v1, 2015. [22] He K M, Sun J. Convolutional neural networks at constrained time cost. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, Massachusetts: IEEE, 2015. 5353-5360 [23] Pathak D, Krähenbühl P, Donahue J, Darrell T, Efros A A. Context encoders: feature learning by inpainting. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada: IEEE, 2016. 2536-2544 [24] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv: 1502.03167, 2015. [25] Mirza M, Osindero S. Conditional generative adversarial nets. arXiv: 1411.1784, 2014. [26] Staal J, Abrámoff M D, Niemeijer M, Viergever M A, Van Ginneken B. Ridge-based vessel segmentation in color images of the retina. IEEE Transactions on Medical Imaging, 2004, 23(4): 501-509 doi: 10.1109/TMI.2004.825627 [27] Maninis K K, Pont-Tuset J, Arbeláez P, Van Gool L. Deep retinal image understanding. arXiv preprint arXiv: 1609.01103, 2016. [28] Xie S, Tu Z. Holistically-nested edge detection. International Journal of Computer Vision, 2017, 125(1-3): 3-18 doi: 10.1007/s11263-017-1004-z [29] Soares J V B, Leandro J J G, Cesar R M, Jelinek H F, Cree M J. Retinal vessel segmentation using the 2-D Gabor wavelet and supervised classification. IEEE Transactions on Medical Imaging, 2006, 25(9): 1214-1222 doi: 10.1109/TMI.2006.879967 [30] Ganin Y, Lempitsky V. $N.4$-fields: neural network nearest neighbor fields for image transforms. arXiv preprint arXiv: 1406.6558, 2014. [31] Marin D, Aquino A, Gegundez-Arias M E, Bravo J M. A new supervised method for blood vessel segmentation in retinal images by using gray-level and moment invariants-based features. IEEE Transactions on Medical Imaging, 2011, 30(1): 146-158 doi: 10.1109/TMI.2010.2064333 [32] Fraz M M, Remagnino P, Hoppe A, Uyyanonvara B, Rudnicka A R, Owen C G, et al. An ensemble classification-based approach applied to retinal blood vessel segmentation. IEEE Transactions on Biomedical Engineering, 2012, 59(9): 2538-2548 doi: 10.1109/TBME.2012.2205687 [33] Alom M Z, Hasan M, Yakopcic C, Taha T M, Asari V K. Recurrent residual convolutional neural network based on U-Net (R2U-Net) for medical image segmentation. arXiv preprint arXiv: 1802.06955, 2018. 期刊类型引用(3)
1. 陈健,万佳泽,林丽,李佐勇. 自适应语义感知网络的盲图像质量评价. 中国图象图形学报. 2023(11): 3400-3414 . 百度学术
2. 李英,李欣玥,王佳琦,许金凯,于化东. 基于Retinex去雾算法的水射流辅助激光加工特征图像融合算法. 中国激光. 2023(24): 67-76 . 百度学术
3. 陈健,李诗云,林丽,王猛,李佐勇. 模糊失真图像无参考质量评价综述. 自动化学报. 2022(03): 689-711 . 本站查看
其他类型引用(11)
-